Una nuova ricerca sull’intelligenza artificiale propone il ragionamento multimodale a catena di pensiero nei modelli linguistici che supera GPT-3.5 del 16% (75,17% → 91,68%) su ScienceQA.

Nuova ricerca sull'IA propone ragionamento multimodale superiore a GPT-3.5 (+16%) su ScienceQA (91,68%).

A causa degli sviluppi tecnologici recenti, i grandi modelli di linguaggio (LLM) hanno ottenuto risultati notevoli in compiti di ragionamento complessi e sofisticati. Ciò viene realizzato generando passaggi intermedi di ragionamento per le dimostrazioni di prompting, che è anche noto come prompting a catena di pensiero (CoT). Tuttavia, la maggior parte dei lavori attuali su CoT si concentra esclusivamente sulla modalità del linguaggio e, per estrarre il ragionamento CoT in multimodalità, i ricercatori impiegano frequentemente il paradigma del Multimodal-CoT. Il Multimodal-CoT divide i problemi a più passaggi in processi intermedi di ragionamento, generando l’output finale anche quando gli input sono in varie modalità come visione e linguaggio. Uno dei modi più popolari per eseguire il Multimodal-CoT è combinare l’input di più modalità in una singola modalità prima di sollecitare i LLM a eseguire il CoT. Tuttavia, questo metodo presenta diversi svantaggi, tra cui la significativa perdita di informazioni che si verifica durante la conversione dei dati da una modalità all’altra. Un altro modo per realizzare il ragionamento CoT in multimodalità è sintonizzare modelli di linguaggio piccoli combinando diverse caratteristiche di visione e linguaggio.

Tuttavia, il problema principale di questo approccio è che questi modelli di linguaggio hanno la tendenza a produrre schemi di ragionamento allucinatori che influenzano significativamente l’inferenza delle risposte. Per ridurre l’impatto di tali errori, i ricercatori di Amazon hanno proposto Multimodal-CoT, che combina le caratteristiche visive in un framework di addestramento separato. Il framework divide il processo di ragionamento in due fasi: generazione di ragionamenti e inferenza delle risposte. Il modello produce argomenti più persuasivi includendo gli aspetti visivi in entrambe le fasi, il che aiuta a creare inferenze di risposta più precise. Questo lavoro è il primo del suo genere che studia il ragionamento CoT in diverse modalità. Sulla benchmark ScienceQA, la tecnica, come fornita dai ricercatori di Amazon, dimostra prestazioni all’avanguardia, superando l’accuratezza GPT-3.5 del 16% e superando le prestazioni umane.

Le fasi di inferenza Multimodal-answer CoT e generazione di ragionamenti utilizzano la stessa architettura del modello e differiscono per il tipo di input e output. Prendendo ad esempio un modello visione-linguaggio, il modello riceve dati dai domini visivo e linguistico durante la fase di generazione di ragionamenti. Una volta prodotto il ragionamento, viene quindi aggiunto all’input linguistico iniziale nella fase di inferenza delle risposte per creare l’input linguistico per la fase successiva. Il modello viene quindi fornito con i dati aggiornati e addestrato a produrre il risultato desiderato. Un modello basato su trasformatori che svolge tre funzioni principali (codifica, interazione e decodifica) fornisce la base del modello sottostante. Per metterlo semplicemente, il testo linguistico viene fornito a un codificatore Transformer per creare una rappresentazione testuale. Questa rappresentazione testuale viene poi combinata con la rappresentazione visiva e fornita al decodificatore Transformer.

Al fine di valutare l’efficacia del loro metodo, i ricercatori hanno effettuato numerosi test sulla benchmark ScienceQA, un dataset di grandi dimensioni di domande scientifiche multimodali che contiene oltre 21.000 domande a scelta multipla multimodali con risposte annotate. I ricercatori hanno concluso che il loro approccio supera il modello GPT-3.5, precedentemente all’avanguardia, del 16% sulla benchmark. In breve, i ricercatori di Amazon hanno indagato e risolto il problema di evocare il ragionamento Multimodal-CoT proponendo un framework a due fasi per sintonizzare i modelli di linguaggio per combinare le rappresentazioni visive e linguistiche per eseguire il Multimodal-CoT. Il modello, quindi, genera ragionamenti informativi per facilitare l’infrazione delle risposte finali. Il repository GitHub per il modello può essere consultato di seguito.