Una nuova ricerca sull’IA presenta GPT4RoI un modello di visione-linguaggio basato sull’addestramento dell’ampio modello di linguaggio (LLM) su coppie regione-testo

Nuova ricerca sull'IA GPT4RoI è un modello di visione-linguaggio basato sull'addestramento dell'LLM su coppie regione-testo

I modelli di linguaggio di grandi dimensioni (LLM) hanno compiuto grandi progressi di recente, dimostrando una performance incredibile nei compiti che richiedono l’elaborazione del linguaggio naturale in modo conversazionale. Gli esempi includono i prodotti commerciali ChatGPT, Claude, Bard, GPT-4 solo testuale e le comunità opensource LLama, Alpaca, Vicuna, ChatGLM, MOSS, ecc. Grazie ai loro poteri senza precedenti, offrono una possibile via verso modelli di intelligenza artificiale ad uso generale. Come risultato dell’efficacia dei LLM, la comunità del modellamento multimodale sta creando un nuovo percorso tecnologico per utilizzare i LLM come interfaccia universale per creare modelli ad uso generale, dove lo spazio delle caratteristiche di un determinato compito viene adattato allo spazio delle caratteristiche dei modelli di linguaggio pre-addestrati.

I modelli di visione e linguaggio, come MiniGPT-4, LLaVA, LLaMA-Adapter, InstructBLIP, ecc., allineano l’encoder di visione ai LLM tramite l’addestramento dell’istruzione su coppie immagine-testo come uno dei compiti rappresentativi. La qualità dell’allineamento influisce significativamente sulle prestazioni dei modelli di visione e linguaggio sotto il concetto di addestramento dell’istruzione. Anche se questi lavori hanno ottime capacità multimodali, il loro allineamento a livello di regione impedisce loro di progredire oltre compiti di comprensione più complessi come la descrizione delle regioni e il ragionamento. I loro allineamenti sono esclusivamente su coppie immagine-testo. Alcuni studi utilizzano modelli di visione esterni come MM-REACT, InternGPT e DetGPT per fornire una comprensione a livello di regione in modelli di visione e linguaggio.

Tuttavia, il loro design non end-to-end potrebbe essere migliorato per modelli multimodali ad uso generale. Questo lavoro mira a sviluppare un modello di visione e linguaggio dall’inizio alla fine che fornisca una comprensione dettagliata della regione di interesse. Il design principale dei modelli di visione e linguaggio a livello di immagine è quello di stabilire la casella oggetto come formato dell’istruzione spaziale, poiché l’architettura del modello in questi modelli comprime l’intera immagine come l’embedding dell’immagine senza alcuna operazione per fare riferimento a parti specifiche. Per ottenere la risposta, i LLM vengono forniti con gli elementi visivi estratti tramite l’istruzione spaziale e l’istruzione linguistica. Ad esempio, il modello sostituirà con la caratteristica di area a cui fa riferimento l’istruzione spaziale quando la domanda è la sequenza intercalata di “Cosa sta facendo questo?”

RoIAlign o l’attenzione deformabile sono due metodi di implementazione flessibili per l’istruzione spaziale. Aggiornano i dati di addestramento dai dataset immagine-testo a dataset regione-testo, in cui la casella delimitatrice e la descrizione del testo di ciascun elemento vengono fornite per costruire un allineamento dettagliato tra le coppie regione-testo. I dataset accessibili pubblicamente, come l’identificazione degli oggetti COCO, RefCOCO, RefCOCO+, RefCOCOg, entità Flickr30K, Visual Genome (VG) e Visual Commonsense Reasoning (VCR), vengono combinati. Questi dataset vengono modificati in un formato per il perfezionamento delle istruzioni. Inoltre, utilizzando rilevatori di oggetti disponibili commercialmente per estrarre caselle oggetto dalle immagini e utilizzarle come istruzione spaziale, è possibile sfruttare i dati di addestramento immagine-testo, come LLaVA150K, per l’insegnamento spaziale. Il loro modello è migliorato in modo da pre-addestrare l’estrattore di caratteristiche a livello di regione senza influire sui LLM.

Il loro modello è migliorato in qualità conversazionale e genera risposte più simili a quelle umane grazie all’apprendimento da questi dataset immagine-testo che sono stati attentamente selezionati per il perfezionamento delle istruzioni visive. Sulla base della lunghezza del testo, i dataset raccolti sono divisi in due tipi. Prima di tutto, i dati di testo breve includono informazioni sulle categorie degli elementi e le caratteristiche di base. Senza influire sui LLM, vengono utilizzati per pre-addestrare l’estrattore di caratteristiche a livello di regione. In secondo luogo, i testi più lunghi spesso includono idee complesse o richiedono un ragionamento logico. Per questi dati vengono fornite istruzioni spaziali complesse per consentire il perfezionamento end-to-end dell’estrattore di caratteristiche dell’area e dei LLM, simulando istruzioni utente flessibili nell’uso effettivo. Il loro approccio, che trae vantaggio dal perfezionamento dell’istruzione spaziale, offre all’utente dei modelli di visione e linguaggio un’esperienza interattiva unica in cui l’utente può comunicare la domanda al modello sia in forma di linguaggio che in forma di istruzione spaziale.

La Figura 1 illustra come ciò porti a nuove abilità che vanno oltre la comprensione a livello di immagine, come il ragionamento su aree complesse e la descrizione delle regioni. In conclusione, il loro lavoro contribuisce quanto segue:

• Fornendo ai LLM un addestramento su dataset di testo regionale, avanzano modelli di visione e linguaggio a livello di regione. Il loro modello è stato costruito con funzionalità aggiuntive, come la descrizione delle regioni e il ragionamento, rispetto ai modelli precedenti a livello di immagine.

• Per ottenere una risposta, introducono l’istruzione spaziale per fare riferimento alla regione di interesse e le caratteristiche della regione recuperate dall’encoder visivo vengono fornite ai LLM insieme all’istruzione di linguaggio.

• La codifica, il formato di ottimizzazione delle istruzioni dei dataset e la demo online sono tutti disponibili su GitHub.

Figura 1: Un modello visione-linguaggio chiamato GPT4RoI è costruito su modelli di linguaggio di grandi dimensioni (LLM) ottimizzati per le istruzioni su coppie di regioni e testi. È in grado di analizzare le istruzioni dell’utente che combinano informazioni verbali e di posizione in una singola regione. Vengono completate attività di comprensione multimodale dettagliate, come la descrizione delle regioni e il ragionamento.