Incontra DreamSync un nuovo framework di intelligenza artificiale per migliorare la sintesi di testo-immagine (T2I) con il sostegno dei modelli di comprensione delle immagini

Incontra DreamSync il nuovo framework di intelligenza artificiale che rivoluziona la sintesi testo-immagine (T2I) con il supporto dei modelli di comprensione delle immagini

Ricercatori dell’Università della California del Sud, dell’Università di Washington, dell’Università Bar-Ilan e di Google Research hanno introdotto DreamSync, che affronta il problema dell’ottimizzazione dell’allineamento e dell’appeal estetico nei modelli di generazione di testo-immagine basati sulla diffusione senza necessità di annotazioni umane, modifiche all’architettura del modello o apprendimento per rinforzo. Ciò viene realizzato generando immagini candidate, valutandole utilizzando modelli di domanda-risposta visuale (VQA) e affinando il modello di testo-immagine.

Studi precedenti hanno proposto l’utilizzo dei modelli VQA, come ad esempio TIFA, per valutare la generazione di testo-immagine. Con 4.000 prompt e 25.000 domande, TIFA facilita la valutazione in 12 categorie. SeeTrue e metodi che implicano l’addestramento, come RLHF e adattatori di addestramento, affrontano l’allineamento testo-immagine. Le tecniche senza addestramento, ad esempio SynGen e StructuralDiffusion, regolano l’inferenza per l’allineamento.

DreamSync affronta le sfide nei modelli di testo-immagine, migliorando la fedeltà alle intenzioni dell’utente e l’appeal estetico senza dover fare affidamento su architetture specifiche o dati etichettati. Introduce un framework indipendente dal modello che utilizza modelli di visione-linguaggio (VLM) per individuare discrepanze tra immagini generate e testo di input. Il metodo prevede lo sviluppo di diverse immagini candidate, la loro valutazione con VLM e l’affinamento del modello di testo-immagine. DreamSync offre un miglioramento dell’allineamento delle immagini, superando i metodi di base e può migliorare diverse caratteristiche dell’immagine, estendendo la sua applicabilità oltre il miglioramento dell’allineamento.

DreamSync utilizza un framework indipendente dal modello per allineare la generazione di testo-immagine con il feedback dai VLM. Il processo prevede la generazione di diverse immagini candidate da un prompt e la loro valutazione per la fedeltà al testo e l’estetica dell’immagine utilizzando due VLM dedicati. L’immagine migliore selezionata, determinata dal feedback del VLM, viene utilizzata per affinare il modello di testo-immagine, con l’iterazione che si ripete fino alla convergenza. Introduce anche il bootstrapping iterativo, utilizzando i VLM come modelli di insegnamento per etichettare i dati non etichettati per l’addestramento del modello di testo-immagine.

DreamSync migliora i modelli SDXL e SD v1.4 di testo-immagine, con tre iterazioni SDXL che portano a un miglioramento della fedeltà di 1,7 e 3,7 punti su TIFA. L’estetica visiva migliora anche di 3,4 punti. Applicando DreamSync a SD v1.4 si ottiene un miglioramento di 1,0 punto per la fedeltà e un aumento di 1,7 punti nel punteggio assoluto su TIFA, con un miglioramento dell’estetica di 0,3 punti. In uno studio comparativo, DreamSync supera SDXL nell’allineamento, producendo immagini con componenti più rilevanti e 3,4 risposte corrette in più. Raggiunge una fedeltà testuale superiore senza compromettere l’aspetto visivo su TIFA e DSG, dimostrando un miglioramento graduale nel corso delle iterazioni.

In conclusione, DreamSync è un framework versatile valutato su sfide da parte di benchmark di testo-immagine, mostrando miglioramenti significativi nell’allineamento e nell’appeal visivo sia in distribuzione che in situazioni di distribuzione. Il framework incorpora un feedback doppio dai modelli di visione-linguaggio ed è stato convalidato da valutazioni umane e da un modello di previsione delle preferenze.

Miglioramenti futuri per DreamSync includono la delimitazione del feedback con annotazioni dettagliate come bounding box per identificare i disallineamenti. La personalizzazione dei prompt in ogni iterazione mira a miglioramenti specifici nella sintesi del testo-immagine. L’esplorazione della struttura linguistica e delle mappe di attenzione mira a migliorare la connessione attributo-oggetto. L’addestramento di modelli di ricompensa con feedback umano può allineare ulteriormente le immagini generate alle intenzioni dell’utente. L’estensione dell’applicazione di DreamSync ad altre architetture di modelli, la valutazione delle prestazioni e ulteriori studi in contesti diversi sono aree di ricerca in corso.