Rivoluzionare la sintesi testo-immagine i ricercatori dell’UC Berkeley utilizzano grandi modelli di linguaggio in un processo di generazione a due fasi per un miglioramento del ragionamento spaziale e del senso comune.

UC Berkeley researchers revolutionize text-image synthesis using large language models in a two-phase generation process to improve spatial reasoning and common sense.

Sono emerse recenti innovazioni nella generazione di immagini da testo che hanno introdotto modelli di diffusione in grado di sintetizzare immagini altamente realistiche e diverse. Tuttavia, nonostante le loro impressionanti capacità, i modelli di diffusione come Stable Diffusion spesso hanno bisogno di aiuto con prompt che richiedono ragionamento spaziale o di buon senso, portando a inesattezze nelle immagini generate.

Per affrontare questa sfida, un team di ricerca dell’UC Berkeley e dell’UCSF ha proposto un nuovo approccio basato su LLM-grounded Diffusion (LMD) che migliora la comprensione del prompt nella generazione di immagini da testo. Hanno identificato scenari, inclusi la negazione, la numerazione, l’assegnazione di attributi e le relazioni spaziali, in cui Stable Diffusion è carente rispetto a LMD.

I ricercatori hanno adottato una soluzione a basso costo per evitare il costoso e lento processo di addestramento di grandi modelli di lingua (LLM) e modelli di diffusione. Hanno integrato LLM congelati fuori dallo scaffale nei modelli di diffusione, ottenendo così un processo di generazione a due fasi che fornisce capacità migliorate di ragionamento spaziale e di buon senso.

Nella prima fase, un LLM viene adattato per funzionare come generatore di layout guidato dal testo attraverso l’apprendimento in contesto. Quando viene dato un prompt di immagine, LLM produce un layout della scena composto da bounding box e descrizioni corrispondenti. Nella seconda fase, un modello di diffusione è guidato dal layout generato utilizzando un nuovo controller per generare immagini. Entrambe le fasi utilizzano modelli preaddestrati congelati senza alcuna ottimizzazione dei parametri per LLM o modelli di diffusione.

LMD offre diversi vantaggi oltre alla comprensione migliorata del prompt. Consente la specifica di scene multiround basata sul dialogo, consentendo agli utenti di fornire ulteriori chiarimenti e modifiche per ogni prompt. Inoltre, LMD può gestire prompt in lingue non supportate dal modello di diffusione sottostante. Incorporando un LLM che supporta il dialogo multiround, gli utenti possono interrogare LLM dopo la generazione iniziale del layout e ricevere layout aggiornati per la successiva generazione di immagini, facilitando richieste come l’aggiunta di oggetti o la modifica delle loro posizioni o descrizioni.

Inoltre, LMD accetta prompt non in inglese fornendo un esempio di prompt non in inglese con una descrizione del layout e dello sfondo in inglese durante l’apprendimento in contesto. Questo consente a LMD di generare layout con descrizioni in inglese, anche quando i modelli di diffusione non supportano la lingua data.

I ricercatori hanno convalidato la superiorità di LMD confrontandolo con il modello di diffusione base, Stable Diffusion 2.1, che LMD utilizza. Invitano i lettori a esplorare il loro lavoro per una valutazione completa e ulteriori confronti.

In sintesi, LMD presenta un nuovo approccio per affrontare le limitazioni dei modelli di diffusione nel seguire con precisione i prompt che richiedono ragionamento spaziale o di buon senso. Incorporando LLM congelati e utilizzando un processo di generazione a due fasi, LMD migliora significativamente la comprensione del prompt nei compiti di generazione di immagini da testo. Offre capacità aggiuntive, come la specifica di scene basata sul dialogo e la gestione di prompt in lingue non supportate. Il lavoro del team di ricerca apre nuove possibilità per migliorare l’accuratezza e la diversità delle immagini sintetizzate attraverso l’integrazione di modelli congelati fuori dallo scaffale.