Ricercatori del Caltech e dell’ETH Zurigo presentano modelli di diffusione rivoluzionari sfruttare le didascalie testuali per compiti visivi all’avanguardia e adattamenti tra domini diversi.

Ricercatori del Caltech e dell'ETH Zurigo presentano modelli di diffusione rivoluzionari per sfruttare le didascalie testuali per compiti visivi avanzati e adattamenti tra domini differenti

I modelli di diffusione hanno rivoluzionato la sintesi testo-immagine, aprendo nuove possibilità in classici compiti di apprendimento automatico. Tuttavia, sfruttare efficacemente la loro conoscenza percettiva, specialmente nei compiti di visione, rimane una sfida. Ricercatori del CalTech, dell’ETH Zurich e del Swiss Data Science Center esplorano l’uso di didascalie generate automaticamente per migliorare l’allineamento testo-immagine e le mappe di cross-attenzione, ottenendo miglioramenti sostanziali nelle prestazioni percettive. La loro approccio stabilisce nuovi punti di riferimento nella segmentazione semantica e nella stima della profondità basate sulla diffusione, estendendo persino i suoi benefici alle applicazioni cross-domain, dimostrando risultati notevoli nei compiti di rilevamento e segmentazione degli oggetti.

I ricercatori esplorano l’uso di modelli di diffusione nella sintesi testo-immagine e la loro applicazione nei compiti di visione. La loro ricerca indaga l’allineamento testo-immagine e l’uso di didascalie generate automaticamente per migliorare le prestazioni percettive. Approfondisce i vantaggi di un prompt generico, dell’allineamento dominio-testo, della scalatura latente e della lunghezza delle didascalie. Propone anche un approccio migliorato per la rappresentazione del testo specifica della classe utilizzando CLIP. Il loro studio stabilisce nuovi punti di riferimento nella segmentazione semantica basata sulla diffusione, nella stima della profondità e nel rilevamento degli oggetti su vari dataset.

I modelli di diffusione si sono distinti nella generazione di immagini e promettono nei compiti di visione discriminativa come la segmentazione semantica e la stima della profondità. A differenza dei modelli contrastivi, hanno una relazione causale con il testo, sollevando quesiti sull’impatto dell’allineamento testo-immagine. Il loro studio esplora questa relazione e suggerisce che i prompt di testo non allineati possano ostacolare le prestazioni. Introduce didascalie generate automaticamente per migliorare l’allineamento testo-immagine, migliorando le prestazioni percettive. Vengono indagati prompt generici e allineamento tra dominio del testo e dell’obiettivo nei compiti di visione cross-domain, ottenendo risultati di punta in vari compiti di percezione.

Il loro metodo, inizialmente generativo, utilizza modelli di diffusione per la sintesi testo-immagine e i compiti visivi. Il modello di diffusione stabile comprende quattro reti: un codificatore, un autoencoder di denoising condizionale, un codificatore di linguaggio e un decodificatore. L’addestramento prevede un processo in avanti e un processo inverso appreso, sfruttando un dataset di immagini e didascalie. Un meccanismo di cross-attenzione potenzia le prestazioni percettive. Gli esperimenti su diversi dataset producono risultati di punta nei compiti di percezione basati sulla diffusione.

Il loro approccio presenta un metodo che supera lo stato dell’arte (SOTA) nella segmentazione semantica basata sulla diffusione sul dataset ADE20K e ottiene risultati di SOTA nella stima della profondità sul dataset NYUv2. Dimostra adattabilità cross-domain ottenendo risultati SOTA nel rilevamento degli oggetti sul dataset Watercolor 2K e risultati SOTA nella segmentazione sui dataset Dark Zurich-val e Nighttime Driving. Le tecniche di modifica delle didascalie migliorano le prestazioni su diversi dataset, e l’uso di CLIP per la rappresentazione del testo specifica della classe migliora le mappe di cross-attenzione. Il loro studio sottolinea l’importanza dell’allineamento testo-immagine e del testo specifico del dominio nel migliorare le prestazioni dei compiti di visione.

In conclusione, la loro ricerca introduce un metodo che migliora l’allineamento testo-immagine nei modelli di percezione basati sulla diffusione, migliorando le prestazioni su vari compiti di visione. L’approccio ottiene risultati in compiti come la segmentazione semantica e la stima della profondità utilizzando didascalie generate automaticamente. Il loro metodo estende i suoi benefici a scenari cross-domain, dimostrando adattabilità. Il loro studio sottolinea l’importanza di allineare i prompt di testo alle immagini e evidenzia il potenziale di ulteriori miglioramenti attraverso tecniche di personalizzazione del modello. Offre preziose intuizioni per ottimizzare le interazioni testo-immagine per una percezione visiva migliore nei modelli di diffusione.