Affrontare più compiti con un singolo modello di linguaggio visuale

'Multi-tasking with a single visual language model'

Un aspetto chiave dell’intelligenza è la capacità di imparare rapidamente come eseguire un nuovo compito quando viene data una breve istruzione. Ad esempio, un bambino può riconoscere gli animali veri allo zoo dopo aver visto alcune immagini degli animali in un libro, nonostante le differenze tra i due. Ma per un modello visivo tipico per imparare un nuovo compito, deve essere allenato su decine di migliaia di esempi specificamente etichettati per quel compito. Se l’obiettivo è contare e identificare gli animali in un’immagine, come ad esempio “tre zebre”, sarebbe necessario raccogliere migliaia di immagini e annotare ogni immagine con la loro quantità e specie. Questo processo è inefficiente, costoso e intensivo in risorse, richiedendo grandi quantità di dati annotati e la necessità di allenare un nuovo modello ogni volta che viene confrontato con un nuovo compito. Come parte della missione di DeepMind di risolvere l’intelligenza, abbiamo esplorato se un modello alternativo potesse rendere questo processo più facile ed efficiente, fornendo solo informazioni limitate specifiche del compito.

Oggi, nella preprint del nostro articolo, presentiamo Flamingo, un singolo modello linguistico visivo (VLM) che stabilisce un nuovo stato dell’arte nell’apprendimento di poche istanze su una vasta gamma di compiti multimodali a scopo aperto. Ciò significa che Flamingo può affrontare un numero di problemi difficili con solo un pugno di esempi specifici del compito (in poche istanze), senza richiedere ulteriori allenamenti. L’interfaccia semplice di Flamingo rende ciò possibile, prendendo come input una richiesta composta da immagini, video e testo intercalati e quindi restituendo il linguaggio associato.

Similmente al comportamento dei grandi modelli linguistici (LLM), che possono affrontare un compito linguistico elaborando esempi del compito nella loro richiesta di testo, l’interfaccia visiva e testuale di Flamingo può guidare il modello verso la soluzione di un compito multimodale. Dati alcuni esempi di coppie di input visivi e risposte di testo attese composte nella richiesta di Flamingo, il modello può essere interrogato con una nuova immagine o video e quindi generare una risposta.

Figura 1. Dati i due esempi di immagini di animali e un testo che ne identifica il nome e un commento su dove possono essere trovati, Flamingo può imitare questo stile dato una nuova immagine per restituire una descrizione pertinente: “Questo è un fenicottero. Si trovano nei Caraibi.”.:

Sulle 16 task che abbiamo studiato, Flamingo batte tutti gli approcci precedenti di apprendimento di poche istanze quando vengono forniti solo quattro esempi per compito. In diversi casi, lo stesso modello Flamingo supera metodi che sono sintonizzati e ottimizzati per ogni compito in modo indipendente e utilizzano dati specifici del compito con ordini di grandezza maggiore. Ciò dovrebbe consentire alle persone non esperte di utilizzare rapidamente e facilmente modelli linguistici visivi accurati per nuovi compiti a portata di mano.

Figura 2. Sinistra: Performance di Flamingo nell'apprendimento di poche istanze su 16 diversi compiti multimodali rispetto alla performance specifica del compito di stato dell'arte. Destra: Esempi di input e output attesi per tre dei nostri 16 benchmark.

Nella pratica, Flamingo fonde grandi modelli linguistici con potenti rappresentazioni visive, ognuno dei quali è preaddestrato e congelato separatamente, aggiungendo nuovi componenti architetturali tra di essi. Viene quindi allenato su una miscela di dati multimodali su larga scala complementari provenienti solo dal web, senza utilizzare dati annotati per scopi di apprendimento automatico. Seguendo questo metodo, partiamo da Chinchilla, il nostro modello linguistico con 70 miliardi di parametri ottimizzato per il calcolo recentemente introdotto, per addestrare il nostro modello Flamingo finale, un VLM con 80 miliardi di parametri. Dopo che questo addestramento è stato completato, Flamingo può essere adattato direttamente a compiti di visione tramite un semplice apprendimento di poche istanze senza ulteriori sintonizzazioni specifiche del compito.

Abbiamo anche testato le capacità qualitative del modello al di là dei nostri benchmark attuali. Come parte di questo processo, abbiamo confrontato le prestazioni del nostro modello nella descrizione di immagini relative al genere e al colore della pelle e abbiamo fatto passare le didascalie generate dal nostro modello attraverso l’API di Perspective di Google, che valuta la tossicità del testo. Mentre i risultati iniziali sono positivi, è necessaria ulteriore ricerca per valutare i rischi etici nei sistemi multimodali ed esortiamo le persone a valutare e considerare attentamente queste questioni prima di pensare di implementare tali sistemi nel mondo reale.

Le capacità multimodali sono essenziali per importanti applicazioni di intelligenza artificiale, come aiutare le persone con problemi di vista ad affrontare le sfide visive quotidiane o migliorare l’identificazione dei contenuti odiosi sul web. Flamingo rende possibile adattarsi in modo efficiente a questi esempi e ad altri compiti al volo senza modificare il modello. Interessantemente, il modello dimostra capacità di dialogo multimodale pronte all’uso, come si può vedere qui.

Figura 3 – Flamingo può impegnarsi in un dialogo multimodale “out of the box”, come si può vedere qui discutendo di un improbabile immagine di “mostro della zuppa” generata da DALL·E 2 di OpenAI (sinistra), e superando e identificando il famoso test di Stroop (destra): #https://openai.com/dall-e-2/

Flamingo è una famiglia di modelli generici efficaci ed efficienti che possono essere applicati a compiti di comprensione di immagini e video con pochi esempi specifici del compito. Modelli come Flamingo offrono grandi promesse per beneficiare la società in modi pratici e stiamo continuando a migliorarne la flessibilità e le capacità in modo che possano essere utilizzati in modo sicuro a vantaggio di tutti. Le capacità di Flamingo aprono la strada a interazioni ricche con modelli di linguaggio visivo appresi che possono consentire una migliore interpretabilità e nuove ed entusiasmanti applicazioni, come un assistente visivo che aiuta le persone nella vita quotidiana – e siamo entusiasti dei risultati finora ottenuti.