Incontra Cheetor un modello di lingua larga multimodale basato su Transformer (MLLMs) che può gestire efficacemente una vasta gamma di istruzioni di visione-lingua intrecciate e raggiunge prestazioni zero-shot all’avanguardia.

Meet Cheetor, a multimodal large language model based on Transformer (MLLMs) that can effectively handle a wide range of intertwined vision-language instructions and achieves state-of-the-art zero-shot performance.

Attraverso l’ottimizzazione dell’istruzione su gruppi di attività linguistiche con uno stile didattico, i grandi modelli di linguaggio (LLM) hanno recentemente dimostrato eccezionali capacità nel fungere da modello ad uso generale per diverse attività. L’ottimizzazione dell’istruzione sblocca una grande quantità di generalizzabilità a zero-shot dei LLM su istruzioni di attività nuove tramite il fine-tuning di una varietà di compiti in un singolo formato di istruzione-risposta. Con l’obiettivo di lunga data in numerose applicazioni del mondo reale, questo risultato ha suscitato una nuova ondata di ricerca sull’ampliamento dei modelli di istruzioni seguenti basati solo su testo a quelli multimodali. Per raggiungere questo scopo, Flamingo e BLIP-2 dotano i LLM di un codificatore visivo congelato per comprendere gli input visivi. La capacità di seguire le istruzioni dei modelli viene ulteriormente potenziata dagli sforzi successivi di LLaVA, MiniGPT-4 e InstructBLIP attraverso il fine-tuning di dataset multimodali di istruzioni seguenti.

La disponibilità di tali assistenti di istruzioni seguenti è limitata da questi Modelli di Linguaggio Multimodali di Grandi Dimensioni (MLLM), che si concentrano principalmente su istruzioni visione-linguaggio che includono solo un’immagine singola come contesto visivo e hanno una varietà di istruzioni limitata. Al contrario, le persone spesso esprimono le loro esigenze nella vita reale attraverso una serie di messaggi e immagini pertinenti. Ad esempio, le persone possono avere bisogno che i modelli facciano riferimento a diverse fonti di conoscenza multimodale (come siti web accattivanti dal punto di vista visivo, libri di testo e diapositive di classe) per rispondere a una domanda di dominio aperto. Le istruzioni visione-linguaggio intersecate, in cui varie immagini e testi sono semanticamente correlati, rappresentano queste diverse fonti e la query.

Ricercatori dell’Università di Zhejiang, dell’Università Nazionale di Singapore e dell’Università Tecnologica di Nanyang hanno sviluppato I4 (Istruzione-Seguente Immagine-Testo Interconnessa e Intrecciata semanticamente), un ampio benchmark su larga scala di 31 compiti con istruzioni varie in un formato di istruzione-risposta unificato, che copre 20 scenari diversi, per aiutare la ricerca nell’istruzione seguente visione-linguaggio intrecciata. I4 contiene tre tratti cruciali: (1) le istruzioni sono tutte costituite da sequenze di immagini e parole correlate, come storyboard con script e libri di testo con diagrammi. Questo è noto come contesto visione-linguaggio intrecciato. (2) Ci sono molte istruzioni complesse; i compiti vanno dalle attività corporee conversazionali all’individuazione delle discrepanze nelle foto di sorveglianza alla previsione del discorso per i fumetti. (3) Il benchmark copre vari scenari di istruzione seguente, tra cui cartoni animati, immagini commerciali, riprese di guida, istruzioni per ricette, ecc. essi valutano sistematicamente i MLLM contemporanei utilizzando il benchmark suggerito e scoprono che hanno bisogno di aiuto per svolgere istruzioni multimodali complesse del genere. sostengono che il Generatore di Prompt Visivi (VPG) sia fondamentale nei MLLM per comprendere istruzioni complesse, anche se i MLLM attuali si concentrano principalmente sulla creazione di modi sofisticati per generare dati di ottimizzazione delle istruzioni più variegati e di alta qualità. Le approcci esistenti suggeriscono diversi VPG (come la proiezione lineare, Resampler e Q-former) per estrarre indizi visivi pertinenti dalle ricche informazioni delle immagini contenute nelle strutture di visione (come ViT) per modificare i LLM al fine di comprendere gli input visivi.

Sfidando il LLM congelato a fornire didascalie condizionate dai suggerimenti visivi, addestrano il VPG su milioni di coppie immagine-didascalia. Sebbene efficienti, le didascalie raccolte dal web descrivono tipicamente solo una piccola parte dello sfondo dell’immagine. Di conseguenza, il VPG potrebbe non estrarre informazioni precise necessarie per alcune attività perché viene insegnato solo a estrarre informazioni evidenti per didascalie tipiche. Inoltre, questo problema peggiora in I4, poiché i compiti richiedono al VPG di prestare attenzione a dettagli visivi specifici riguardanti altre immagini nel contesto (ad esempio, trasmettere le sottili differenze tra due foto).

Propongono un modulo leggero di Reiniezione del Conoscimento Controllabile (CLORI) che utilizza le capacità di ragionamento sofisticate dei LLM per controllare il VPG (cioè il Q-former) per ricreare le informazioni visive mancanti condizionate dalla semantica specifica dell’istruzione per affrontare il problema critico del VPG nei MLLM esistenti. Per essere più precisi, utilizzano il Q-former per fornire indizi visivi indipendenti dal compito che forniscono al LLM informazioni essenziali sulle immagini. prima costruiscono condizioni specifiche dell’istruzione dal modello linguistico per controllare il Q-former ed estrarre condizionatamente determinate informazioni dalle immagini. Queste condizioni vengono quindi prese e reiniettate nel LLM.

Utilizzando mappe di cross-attenzione interne, determinano innanzitutto le regioni di un’immagine che il Q-former ha in gran parte trascurato. Dopo di che, utilizzano ChatGPT e SAM per identificare gli obiettivi di modifica e produrre la descrizione corretta della modifica. Successivamente, utilizzando regolazioni locali all’immagine originale in base alle istruzioni di modifica, utilizzano Blended Diffusion per creare un’immagine controfattuale. Viene quindi sviluppato un compito di pre-addestramento discriminativo tra immagini per descrivere le differenze minute tra l’immagine controfattuale creata e l’immagine originale. Il modulo CLORI deve estrarre le informazioni visive mancanti in base all’immagine controfattuale e all’istruzione del compito poiché i bit modificati sono selezionati dalle posizioni maggiormente trascurate.

Essi suggeriscono Cheetor, un MLLM basato su Transformer che può creare con successo una semantica olistica da varie istruzioni complesse di visione-linguaggio grazie alla reiniezione di conoscenza regolabile. Il modulo leggero CLORI può essere efficientemente regolato utilizzando la tecnica CAGIT con meno di 1 milione di coppie immagine-testo. Può essere completato in diverse ore con una singola GPU A100 senza la necessità di enormi dati di taratura delle istruzioni multimodali. Il loro modello si comporta notevolmente meglio della precedente MLLM sulla sfida I4, pur essendo efficiente in termini di calcolo e dati. Inoltre, valutano Cheetor utilizzando il benchmark MME, dove il loro modello si comporta in modo ammirevole.

Il seguente riassunto delle loro contribuzioni: (1) costruiscono I4, un completo benchmark per istruzioni di visione-linguaggio intercalate, composto da 31 sfide che coprono una vasta gamma di ambienti reali. (2) forniscono un modulo di reiniezione di conoscenza controllato al minimo (CLORI) che, in risposta alle circostanze generate dal MLLM, reinietta in modo complementare informazioni visive specifiche dell’istruzione nel MLLM. (3) Utilizzando solo 30.000 immagini, insegnano con successo il modulo CLORI utilizzando una tecnica di addestramento dell’immagine controllata dalla cross-attenzione controfattuale. (4) Il loro Cheetor raggiunge prestazioni all’avanguardia sul difficile test I4 a spese di 7 ore di GPU A100, anche senza dati di taratura delle istruzioni multimodali di alta qualità.