Contextual AI presenta LENS un framework di intelligenza artificiale per modelli di linguaggio potenziati dalla visione che supera Flamingo del 9% (56->65%) su VQAv2.

Contextual AI presenta LENS, un framework di intelligenza artificiale che supera Flamingo del 9% (56->65%) su VQAv2, grazie alla potenza della visione integrata nei modelli di linguaggio.

I modelli di linguaggio di grandi dimensioni (LLM) hanno trasformato la comprensione del linguaggio naturale negli ultimi anni, dimostrando notevoli capacità nella comprensione semantica, nella risoluzione delle query e nella produzione di testi, specialmente in ambienti di zero-shot e few-shot. Come si può vedere nella Fig. 1(a), sono stati proposti diversi metodi per utilizzare i LLM in compiti che coinvolgono la visione. Un codificatore ottico può essere addestrato per rappresentare ogni immagine come una serie di embedding continui, consentendo al LLM di comprenderla. Un altro metodo utilizza un codificatore visivo congelato addestrato in maniera contrastiva, aggiungendo strati aggiuntivi al LLM congelato che vengono poi appresi da zero.

Un altro metodo consiglia di addestrare un trasformatore leggero per allineare un codificatore visivo congelato (addestrato in maniera contrastiva) e un LLM congelato. Anche se hanno progredito nella ricerca di cui sopra, è ancora difficile giustificare il costo computazionale aggiuntivo delle fasi di preaddestramento. Inoltre, sono necessari enormi database, tra cui testi, foto e video, per sincronizzare le modalità visive e linguistiche con un LLM esistente. Flamingo aggiunge nuovi strati di cross-attention in un LLM preaddestrato per aggiungere caratteristiche visive.

Figura 1: Confronto tra metodi per coordinare le modalità visive e linguistiche. Ci sono due opzioni per il preaddestramento multimodale: (a) utilizzando un dataset accoppiato o web; e (b) LENS, una tecnica senza preaddestramento che può essere utilizzata con qualsiasi LLM pronto all’uso senza la necessità di dataset multimodali extra. A differenza di LENS, gli approcci precedenti richiedono un preaddestramento congiunto di allineamento su dataset multimodali consistenti per svolgere compiti visivi.

La fase di preaddestramento multimodale richiede 2 miliardi di coppie immagine-testo e 43 milioni di siti web, che possono richiedere fino a 15 giorni, anche utilizzando un codificatore di immagini preaddestrato e un LLM congelato preaddestrato. Invece, utilizzando una varietà di “moduli di visione”, possono estrarre informazioni dagli input visivi e produrre rappresentazioni testuali dettagliate (come tag, attributi, azioni e relazioni, tra le altre cose), che possono poi fornire direttamente al LLM evitando la necessità di ulteriori preaddestramenti multimodali, come mostrato nella Fig. 1(b). I ricercatori di Contextual AI e Stanford University introducono LENS (Large Language Models ENnhanced to See), una strategia modulare che utilizza un LLM come “modulo di ragionamento” e funziona con “moduli di visione” separati.

Inizialmente estraggono informazioni testuali ricche nella tecnica LENS utilizzando moduli di visione preaddestrati, come modelli contrastivi e modelli di sottotitoli delle immagini. Il testo viene quindi inviato al LLM, consentendogli di svolgere compiti, tra cui il riconoscimento degli oggetti, la visione e il linguaggio (V&L). LENS colma il divario tra le modalità senza alcun costo eliminando la necessità di fasi di preaddestramento multimodali o dati aggiuntivi. L’incorporazione di LENS fornisce un modello che funziona in diversi domini senza la necessità di ulteriori preaddestramenti interdominio. Inoltre, questa integrazione ci consente di utilizzare immediatamente gli sviluppi più recenti nella visione artificiale e nell’elaborazione del linguaggio naturale, massimizzando i vantaggi associati ad entrambe le discipline.

Forniscono i seguenti contributi:

• Presentano LENS, un metodo modulare che affronta le sfide della computer vision utilizzando le capacità di apprendimento in-context a few-shot dei modelli di linguaggio attraverso descrizioni linguistiche naturali degli input visivi.

• LENS permette a qualsiasi LLM pronto all’uso di vedere senza ulteriori addestramenti o dati.

• Utilizzano LLM congelati per gestire il riconoscimento degli oggetti e i compiti di ragionamento visivo senza allineamento visione-linguaggio o dati multimodali aggiuntivi. I risultati sperimentali mostrano che il loro approccio raggiunge prestazioni zero-shot competitive o superiori rispetto a modelli preaddestrati insieme end-to-end come Kosmos e Flamingo. Un’implementazione parziale del loro paper è disponibile su GitHub.