Ricercatori del CMU introducono FROMAGe un modello di intelligenza artificiale che avvia in modo efficiente grandi modelli di linguaggio congelati (LLM) per generare testo libero integrato con immagini.

Researchers at CMU introduce FROMAGe, an AI model that efficiently runs frozen large language models (LLM) to generate integrated free-form text with images.

I modelli di linguaggio enormi (LLM) possono mostrare abilità interessanti come produrre discorsi simili a quelli umani e rispondere a domande complesse perché sono stati addestrati su larga scala su grandi corpora di testo. Sebbene incredibili, la maggior parte dei LLM all’avanguardia è addestrata su dati solo testuali scaricati da Internet. Spesso non possono comprendere concetti basati sul mondo reale perché hanno bisogno di essere esposti ad indizi visivi ricchi. Di conseguenza, la maggior parte dei modelli di linguaggio attualmente in uso mostra limiti nelle attività che richiedono ragionamento e fondazioni visive ed è anche incapace di generare immagini. In questo articolo, viene dimostrato come utilizzare efficacemente le capacità di un LLM congelato per input e output multimodali (immagine e testo).

Addestrano il modello di linguaggio a imparare un nuovo token [RET] che rappresenta un’immagine per il recupero immagine-testo. Utilizzano inoltre il mapping lineare tramite apprendimento contrastivo per mappare gli embedding di [RET] per una didascalia in modo che siano vicini agli embedding visuali per l’immagine associata. Solo i pesi dei livelli lineari e l’embedding del token [RET] vengono aggiornati durante l’addestramento, mentre la maggior parte del modello rimane congelata. Di conseguenza, il loro approccio suggerito è altamente efficiente in termini di memoria e computazione. Una volta addestrato, il modello dimostra diverse abilità. Oltre alla capacità originale del LLM basato solo su testo di creare testo, acquisisce nuove abilità di conversazione e ragionamento multimodale. Il loro approccio suggerito è indipendente dal modello e potrebbe essere utilizzato per basare future versioni di LLM più potenti o più grandi.

Il modello di linguaggio è addestrato a imparare un nuovo token [RET] che rappresenta un’immagine, e l’apprendimento contrastivo viene utilizzato per conoscere un mapping lineare che mappa gli embedding di [RET] per una didascalia in modo che siano vicini agli embedding visuali per l’immagine corrispondente. Solo i pesi dei livelli lineari e l’embedding del token [RET] vengono aggiornati durante l’addestramento, lasciando la maggior parte del modello fissata. Di conseguenza, il loro approccio suggerito è altamente efficiente in termini di memoria e computazione. Una volta addestrato, il loro modello dimostra diverse abilità. Oltre alla capacità originale del LLM basato solo su testo di creare testo, acquisisce nuove abilità di conversazione e ragionamento multimodale. Il loro approccio suggerito è indipendente dal modello e potrebbe essere utilizzato per basare future versioni di LLM più potenti o più grandi.

Mostrando la maggiore sensibilità al recupero testo-immagine eseguito da LLM autoregressivi. Uno dei loro principali contributi è il modello Frozen Retrieval Over Multimodal Data for Autoregressive Generation (FROMAGe), addestrato efficacemente ancorando visivamente i LLM attraverso il sottotitolaggio delle immagini e l’apprendimento contrastivo. Mentre gli algoritmi precedenti richiedono dati immagine-testo su larga scala, FROMAGe sviluppa forti capacità multimodali da poche coppie di immagini e didascalie. Il loro metodo è più preciso su testo libero lungo e complicato rispetto ai modelli precedenti. Dimostrando come le competenze attuali dei LLM preaddestrati solo su testo, inclusi l’apprendimento contestuale, la sensibilità all’input e la creazione di conversazioni, possono essere utilizzate per compiti che richiedono input visivo.

Mostrano: (1) il recupero immagine contestuale da sequenze di immagini e testo intercalati; (2) buone prestazioni senza addestramento nella conversazione visiva; e (3) una maggiore sensibilità al contesto del discorso per il recupero immagine. I loro risultati aprono la strada a modelli in grado di imparare e produrre sequenze multimodali lunghe e coerenti. Mettono anche in evidenza le capacità dei LLM preaddestrati solo su testo per compiti basati sull’immagine. Per promuovere ulteriori ricerche e sviluppo, il loro codice e i modelli preaddestrati saranno presto resi disponibili al pubblico.

Utilizzando un approccio, un modello di linguaggio è ancorato nel dominio visivo ed è in grado di gestire input immagine-testo arbitrariamente intercalati e produrre output coerenti immagine-testo. Le nuvolette di discorso verdi sono generate dal modello, mentre quelle grigie rappresentano gli input di partenza.