Le didascalie sintetiche sono utili per l’addestramento multimodale? Questo articolo scientifico dimostra l’efficacia delle didascalie sintetiche nel migliorare la qualità delle didascalie per l’addestramento multimodale

Le didascalie sintetiche migliorano l'addestramento multimodale.

I modelli multimodali sono uno dei più grandi avanzamenti nel campo dell’Intelligenza Artificiale. Questi modelli sono stati progettati per elaborare e comprendere dati provenienti da diverse modalità, sia visive, che includono immagini e video, testuali, che includono il linguaggio naturale, o audio, ovvero il parlato e i suoni. Questi modelli sono in grado di combinare e analizzare dati provenienti da queste diverse modalità per svolgere compiti complessi che richiedono comprensione e inferenza attraverso una varietà di tipi di dati. Poiché i modelli multimodali di grandi dimensioni vengono utilizzati in compiti di visione, il pre-training di tali modelli su coppie immagine-testo ha dimostrato di produrre alte prestazioni in vari compiti correlati alla visione.

I ricercatori hanno cercato di migliorare l’utilità dei dati web, come le coppie immagine-testo, per l’addestramento di grandi modelli multimodali utilizzati in compiti di visione, ma a causa di diversi fattori, come coppie immagine-testo scarsamente allineate, fonti di dati difettose e contenuti di bassa qualità, i dati online sono spesso rumorosi o privi di informazioni utili. Attualmente, i metodi esistenti riducono il rumore nei dati, ma ciò spesso comporta una perdita di diversità dei dati. Per affrontare questo problema, un team di ricercatori ha presentato il loro approccio che si concentra sulla qualità delle didascalie come fonte significativa di rumore nei dati raccolti da web.

Il obiettivo principale è quello di esplorare come le didascalie generate possano migliorare l’utilità delle coppie immagine-testo con testo vago o poco informativo. A tal fine, il team ha testato diverse tattiche di combinazione, combinando le didascalie dei siti web con le didascalie prodotte dal modello. L’approccio ha superato di gran lunga la migliore strategia di filtraggio suggerita dal benchmark DataComp. Utilizzando un pool di candidati di 128 milioni di coppie immagine-testo, il miglioramento su ImageNet è del 2% e su 38 compiti, il miglioramento medio è del 4%. Il loro miglior metodo supera le tecniche convenzionali nei compiti di recupero su Flickr e MS-COCO, dimostrando la validità della loro strategia in situazioni reali.

Il team ha esaminato il motivo per cui le didascalie artificiali sono uno strumento utile per la supervisione del testo. Attraverso la loro valutazione di vari modelli di didascalie per immagini, il team ha dimostrato che l’utilità delle didascalie prodotte da un modello per l’addestramento multimodale non è sempre determinata dalla sua performance sui benchmark di didascalie per immagini standard, come NoCaps CIDEr. Ciò sottolinea la necessità di valutare le didascalie generate, in particolare per attività multimodali, anziché fare affidamento esclusivamente sui benchmark convenzionali di didascalia per immagini.

Lo studio ha utilizzato il dataset di DataComp composto da 1,28 miliardi di coppie immagine-testo per indagare sull’applicazione delle didascalie generate su una scala più ampia. Questo esperimento rivela i limiti del testo sintetico e sottolinea l’importanza crescente della curatela delle immagini alla luce dell’espansione dei dati di addestramento. Le intuizioni condivise dal team sono:

  1. Selezione di un modello di didascalia: Il fine-tuning di una rete pre-addestrata per le didascalie delle immagini basato su benchmark standard potrebbe non portare a didascalie efficaci per l’addestramento multimodale. Metriche senza riferimento come CLIP-S riflettono meglio la qualità dell’addestramento delle didascalie generate.
  1. Combinazione di didascalie da varie fonti: Sono state esplorate diverse strategie per il filtraggio e la combinazione di didascalie grezze e sintetiche, con conseguenti miglioramenti delle prestazioni nelle scale di dati di piccole e medie dimensioni sul benchmark DataComp.
  1. Effettività delle didascalie sintetiche: A livello individuale, le didascalie sintetiche sono meno rumorose e contengono più informazioni visive. Tuttavia, a livello di popolazione, mancano di diversità rispetto alle didascalie grezze.
  1. Scalabilità dei benefici delle didascalie sintetiche: L’approccio migliore per il filtraggio varia a seconda delle dimensioni dei dati. Sperimentare con diverse quantità mette in evidenza i limiti delle didascalie sintetiche, con il controllo della qualità delle immagini e la mancanza di diversità che diventano più critici con dataset di dimensioni maggiori.