Ricercatori di Stanford e Salesforce AI svelano UniControl un modello di diffusione unificato per il controllo avanzato nella generazione di immagini AI.

Ricercatori di Stanford e Salesforce AI rivelano UniControl un modello di diffusione unificato per un controllo avanzato nella generazione di immagini AI.

I modelli fondamentali generativi sono una classe di modelli di intelligenza artificiale progettati per generare nuovi dati che assomigliano a un tipo specifico di dati di input su cui sono stati addestrati. Questi modelli sono spesso impiegati in vari settori, tra cui l’elaborazione del linguaggio naturale, la visione artificiale, la generazione di musica, ecc. Essi apprendono i modelli e le strutture sottostanti dai dati di addestramento e utilizzano tali conoscenze per generare nuovi dati simili.

I modelli fondamentali generativi hanno diverse applicazioni, tra cui la sintesi di immagini, la generazione di testo, i sistemi di raccomandazione, la scoperta di farmaci e altro ancora. Essi sono in continuo sviluppo, con i ricercatori che lavorano per migliorare le loro capacità di generazione, come la generazione di output più diversificati e di alta qualità, il miglioramento del controllo e la comprensione delle implicazioni etiche associate al loro utilizzo.

Alcuni ricercatori dell’Università di Stanford, della Northeastern University e di Salesforce AI Research hanno costruito UniControl. Si tratta di un modello diffusivo unificato per la generazione visuale controllabile ed efficiente in grado di gestire contemporaneamente il linguaggio e diverse condizioni visive. UniControl è in grado di eseguire attività multiple e codificare le condizioni visive di diverse attività in uno spazio di rappresentazione universale, cercando una struttura comune tra le attività. UniControl è inoltre in grado di gestire una vasta gamma di condizioni visive da altre attività e gli stimoli linguistici.

UniControl offre la creazione di immagini con una precisione pixel-perfetto, dove gli elementi visivi plasmano principalmente le immagini risultanti, mentre gli stimoli linguistici ne dirigono lo stile e il contesto. Per migliorare la capacità di UniControl di gestire vari scenari visivi, il team di ricerca ha ampliato i modelli di diffusione testo-immagine pre-addestrati. Inoltre, hanno incorporato un HyperNet consapevole dell’attività che regola i modelli di diffusione, consentendo loro di adattarsi simultaneamente a più compiti di generazione di immagini basati su diverse condizioni visive.

Il loro modello dimostra una comprensione più sottile delle linee guida geometriche 3D delle mappe di profondità e delle normali superficie rispetto a ControlNet. Le condizioni della mappa di profondità producono output visibilmente più accurati. Durante le attività di segmentazione, openpose e bounding box degli oggetti, le immagini prodotte dal loro modello sono meglio allineate alle condizioni fornite rispetto a quelle di ControlNet, garantendo una maggiore fedeltà agli stimoli in input. I risultati sperimentali mostrano che UniControl supera spesso le prestazioni dei metodi a controllo singolo di dimensioni di modelli comparabili.

UniControl unifica diverse condizioni visive di ControlNet ed è in grado di eseguire apprendimento non supervisionato su compiti mai visti prima. Attualmente, UniControl richiede solo una singola condizione visiva, pur essendo in grado di eseguire attività multiple e apprendimento non supervisionato. Ciò evidenzia la sua versatilità e il suo potenziale per un’adozione diffusa.

Tuttavia, il modello eredita ancora le limitazioni dei modelli di generazione di immagini basati sulla diffusione. In particolare, è limitato dai dati di addestramento dei ricercatori, che sono stati ottenuti da un sottoinsieme dei dataset Laion-Aesthetics. Il loro set di dati è soggetto a bias. UniControl potrebbe essere migliorato se fossero disponibili migliori dataset open-source per bloccare la creazione di contenuti di parte, tossici, sessualizzati o altrimenti dannosi.