Meta AI presenta CM3leon il game-changer multimodale che offre la generazione di testo-immagine all’avanguardia con un’efficienza di calcolo senza precedenti.

Meta AI presenta CM3leon, il game-changer multimodale con testo-immagine all'avanguardia e calcolo efficiente.

Il processing del linguaggio naturale e i sistemi che producono immagini basate su input di testo hanno recentemente suscitato un rinnovato interesse nei modelli di intelligenza artificiale generativa. Un recente studio Meta svela CM3leon (pronunciato “chameleon”), un singolo modello di base in grado di generare testo e immagini.

Con una fase di pre-training di recupero su larga scala e una seconda fase di fine-tuning supervisionato multitask (SFT), CM3leon è il primo modello multimodale sviluppato utilizzando una ricetta modificata da modelli di linguaggio solo testo.

L’architettura CM3Leon è simile a modelli testuali popolari, utilizzando un transformer solo decoder. Ciò che rende CM3Leon unico è che può ricevere e produrre sia testo che immagini. Nonostante sia stato addestrato con cinque volte meno calcoli rispetto ai precedenti approcci basati su transformer, CM3leon offre prestazioni all’avanguardia per la generazione di testo-immagine.

CM3leon ha la flessibilità e la potenza dei modelli autoregressivi e l’efficienza e l’economia di addestramento e inferenza. Poiché può generare sequenze di testo e immagini basate su qualsiasi sequenza di testo e immagini fornita, il modello CM3 soddisfa i criteri per un modello misto causale mascherato. Ciò migliora considerevolmente i modelli precedenti che potevano eseguire solo una di queste attività.

I ricercatori mostrano che l’applicazione di un aggiustamento di istruzioni multitask su larga scala a CM3leon per la generazione di immagini e testo può migliorare drasticamente le prestazioni su compiti come la generazione di didascalie per immagini, la risposta a domande visive, la modifica basata su testo e la generazione condizionale di immagini. Il team ha aggiunto una fase di super risoluzione addestrata in modo indipendente per creare immagini ad alta risoluzione dagli output del modello originale.

Secondo i risultati, CM3Leon supera il modello Parti di Google per la generazione di testo-immagine. Imposta un nuovo stato dell’arte con un punteggio FID (Fréchet Inception Distance) di 4.88 sul benchmark di creazione di immagini più popolare (zero-shot MS-COCO). Questo successo dimostra il potere del miglioramento del recupero e l’importanza delle tecniche di scalatura nella determinazione dell’output dei modelli autoregressivi. CM3leon eccelle in compiti di visione-linguaggio, come la creazione di didascalie a lunghezza estesa e la risposta a domande visive. Le prestazioni zero-shot di CM3Leon sono competitive con modelli più grandi addestrati su dataset più ampi, nonostante sia stato addestrato solo su un dataset composto da tre miliardi di token di testo.

Le impressionanti prestazioni di CM3leon in una vasta gamma di compiti danno al team la speranza che in futuro possano generare e comprendere immagini con maggiore precisione.