Questa ricerca sull’IA dell’Università di Arizona State svela ECLIPSE una nuova strategia di apprendimento contrastivo per migliorare la priorità non diffusiva testo-immagine.

La ricerca dell'Università di Arizona State sulla IA rivela ECLIPSE una nuova strategia contrastiva per potenziare la comprensione testo-immagine senza dispersione.

I modelli di diffusione hanno dimostrato di essere molto efficaci nella produzione di fotografie di alta qualità quando vengono forniti suggerimenti di testo. Questo paradigma per la produzione di Testo-immagine (T2I) è stato utilizzato con successo per diverse applicazioni successive, tra cui la generazione di immagini guidate dalla profondità e l’identificazione del soggetto/segmentazione. Due popolari modelli di diffusione condizionati dal testo, modelli CLIP e modelli di diffusione latenti (LDM), spesso chiamati Diffusione stabile, sono fondamentali per questi sviluppi. L’LDM è ben noto nella ricerca per essere disponibile gratuitamente come software open-source. I modelli unCLIP, d’altra parte, hanno ricevuto poca attenzione. L’obiettivo di base di entrambi i tipi di modelli è allenare modelli di diffusione in risposta alle indicazioni di testo. 

A differenza dei modelli unCLIP, che includono un precedente testo-immagine e un decodificatore di immagini di diffusione, l’LDM ha un singolo modello di diffusione testo-immagine. Entrambe le famiglie di modelli operano all’interno dello spazio latente vettorializzato dell’immagine. Poiché i modelli unCLIP spesso superano altri modelli SOTA in diversi benchmark di composizione, come T2I-CompBench e HRS-Benchmark, il team di ricerca si concentra su di loro in questo articolo. Questi modelli T2I, che di solito hanno molti parametri, hanno bisogno di eccellenti abbinamenti immagine-testo per l’allenamento. Rispetto agli LDM, i modelli unCLIP come DALL-E-2, Karlo e Kandinsky hanno una dimensione totale del modello notevolmente più grande (≥2B) a causa del loro modulo precedente, che ha circa 1 miliardo di parametri. 

In ordine, i dati di training per questi modelli unCLIP sono 250M, 115M e 177M di coppie immagine-testo. Pertanto, rimangono due domande importanti: 1) Migliora le prestazioni SOTA nelle composizioni di testo utilizzando un precedente testo-immagine? 2) O è l’aumento delle dimensioni del modello l’elemento cruciale? Aumentando l’efficienza dei parametri e dei dati, il team di ricerca mira a migliorare la loro conoscenza dei precedenti T2I e a offrire miglioramenti significativi rispetto alle formulazioni attuali. I precedenti T2I, volti a stimare direttamente l’incorporamento dell’immagine senza rumore ad ogni passo del processo di diffusione, sono anch’essi modelli di diffusione, come suggerito da ricerche precedenti. Per esaminare questo processo di diffusione precedente, il team di ricerca ha condotto una ricerca empirica. 

Figura 1 confronta le prestazioni medie delle tre attività di composizione (colore, forma e texture) e il numero totale di parametri tra i modelli SOTA di testo-immagine. ECLIPSE richiede una piccola quantità di dati di allenamento, ma produce risultati migliori con meno parametri. L’ECLIPSE presentato utilizza un decodificatore Kandinsky per allenare un modello precedente T2I con circa 33 milioni di parametri utilizzando solo 5 milioni di coppie immagine-testo.

Il team di ricerca ha scoperto che il processo di diffusione degrada marginalmente le prestazioni e non ha effetto sulla produzione di immagini corrette. Inoltre, poiché i modelli di diffusione convergono più lentamente, il loro allenamento richiede ore o giorni significativi di GPU. Di conseguenza, il modello non di diffusione serve da sostituto in questo studio. A causa della mancanza di orientamento del classificatore, questo metodo può limitare le possibilità compositive, ma migliora notevolmente l’efficienza dei parametri e riduce le dipendenze dei dati. 

In questo studio, il team di ricerca dell’Università dello Stato dell’Arizona presenta una tecnica di apprendimento contrastivo unica, chiamata ECLIPSE, per migliorare il precedente T2I non di diffusione e superare gli svantaggi sopra citati. Il team di ricerca ha migliorato l’approccio tradizionale di produzione dell’immersione dell’immagine dall’immersione del testo fornito ottimizzando il Lower Bound delle Evidenze (ELBO). Il team di ricerca suggerisce di utilizzare l’allineamento semantico (tra testo e immagine) dei modelli pre-addestrati visione-linguaggio per sovrintendere alla formazione precedente. Il team di ricerca utilizza una piccola frazione delle coppie immagine-testo (0,34% – 8,69%) per allenare modelli precedenti non di diffusione compatti (97% più piccoli) (con 33 milioni di parametri) utilizzando ECLIPSE. Il team di ricerca ha introdotto precedenti ECLIPSE per le variazioni dei decodificatori di immagini di diffusione unCLIP (Karlo e Kandinsky). I precedenti allenati con ECLIPSE superano i loro equivalenti con 1 miliardo di parametri e superano gli algoritmi di apprendimento precedente di base. I loro risultati suggeriscono un possibile percorso per i modelli generativi T2I che migliorano la composizione senza richiedere molti parametri o dati.

Come mostrato nella Fig. 1, il loro parametro totale e i bisogni di dati diminuiscono significativamente, e si ottiene prestazioni di State-Of-The-Art (SOTA) rispetto ai modelli di parametro simili aumentando il T2I prima delle famiglie unCLIP. Contributi. 1) Nel framework unCLIP, il team di ricerca fornisce ECLIPSE, il primo tentativo di utilizzare apprendimento contrastivo per i priori di testo-immagine. 2) Il team di ricerca ha dimostrato la superiorità di ECLIPSE rispetto ai priori di base in contesti con risorse limitate attraverso sperimentazioni esaustive. 3) È degno di nota che i priori ECLIPSE richiedono solo il 2,8% dei dati di addestramento e il 3,3% dei parametri del modello per ottenere prestazioni equivalenti a modelli più grandi. 4) Il team di ricerca esamina anche gli svantaggi dei priori di diffusione T2I attuali e fornisce osservazioni empiriche.