Dati, Architettura o Perdite Cosa Contribuisce di Più al Successo del Transformer Multimodale?

Cosa contribuisce di più al successo del Transformer Multimodale Dati, Architettura o Perdite?

La capacità di ancorare il linguaggio alla visione è un aspetto fondamentale dei sistemi di intelligenza artificiale del mondo reale; è utile in una serie di compiti (ad esempio, rispondere alle domande visive) e applicazioni (ad esempio, generare descrizioni per ipovedenti). I modelli multimodali (pre-allenati su coppie immagine-linguaggio) mirano a risolvere questo problema di ancoraggio. Una recente famiglia di modelli, i trasformatori multimodali (ad esempio, Lu et al., 2019; Chen et al., 2020; Tan and Bansal, 2019; Li et al., 2020), hanno raggiunto prestazioni all’avanguardia in una serie di benchmark multimodali, suggerendo che l’architettura del trasformatore comune-incorporato sia più adatta per catturare l’allineamento tra coppie immagine-linguaggio rispetto ai metodi precedenti (come i codificatori duali).

In particolare, rispetto all’architettura del codificatore duale in cui non c’è interazione tra le modalità, i trasformatori multimodali (codificatori comuni) sono più efficienti nell’utilizzo dei campioni. Nel grafico qui sotto, vediamo che, quando testato per il recupero di immagini senza campionamento, un trasformatore multimodale esistente (UNITER) ottiene risultati simili a un codificatore duale su larga scala (CLIP) che è stato allenato su 100 volte più dati.

BOW-DE: Miech & Alayrac et al. Arxiv 2021, MMT: Hendricks et al. TACL 2021, UNITER: Chen et al. ECCV 2020, CLIP: Radford et al. Arxiv 2021, ALIGN: Jia et al. Arxiv 2021

In questo lavoro, esaminiamo quali aspetti dei trasformatori multimodali – attenzione, perdite e dati di preallenamento – sono importanti per il loro successo nel preallenamento multimodale. Troviamo che l’attenzione multimodale, in cui sia i trasformatori del linguaggio che dell’immagine si prestano attenzione a vicenda, è cruciale per il successo di questi modelli. I modelli con altri tipi di attenzione (anche con maggiore profondità o parametri) non riescono a ottenere risultati comparabili a modelli più superficiali e più piccoli con attenzione multimodale. Inoltre, si possono ottenere risultati comparabili senza la perdita dell’immagine (modellizzazione della regione mascherata) originariamente proposta per i trasformatori multimodali. Ciò suggerisce che i nostri modelli attuali non stanno sfruttando il segnale utile nella modalità immagine, presumibilmente a causa della formulazione della perdita dell’immagine.

Studiamo anche diverse proprietà dei set di dati multimodali come la loro dimensione e il grado in cui il linguaggio descrive l’immagine corrispondente (rumorosità). Troviamo che la dimensione di un set di dati non sempre predice le prestazioni dei trasformatori multimodali; il livello di rumore e la somiglianza del linguaggio al compito di valutazione sono entrambi importanti fattori contribuenti. Questo suggerisce che la cura di set di dati immagine-testo meno rumorosi sia importante nonostante la tendenza attuale di raccogliere set di dati rumorosi dal web.

Nel complesso, la nostra analisi mostra che i trasformatori multimodali sono più potenti dell’architettura del codificatore duale (dato lo stesso quantitativo di dati di preallenamento), principalmente grazie all’interazione attraverso l’attenzione multimodale. Tuttavia, ci sono ancora molti problemi aperti nella progettazione di modelli multimodali, tra cui migliori perdite per la modalità immagine e robustezza al rumore del set di dati.