Con cinque nuovi modelli multimodali attraverso le scale 3B, 4B e 9B, il team di OpenFlamingo rilascia OpenFlamingo v2 che supera il modello precedente.

OpenFlamingo v2, with five new multimodal models across the 3B, 4B, and 9B scales, surpasses its previous model.

Un gruppo di ricercatori dell’Università di Washington, di Stanford, AI2, UCSB e di Google ha sviluppato di recente il progetto OpenFlamingo, che mira a costruire modelli simili a quelli del team Flamingo di DeepMind. I modelli di OpenFlamingo possono gestire sequenze miste di testo e immagini e produrre testo come output. La sottotitolazione, la risposta alle domande visive e la classificazione delle immagini sono solo alcune delle attività che possono beneficiare di questo e della capacità del modello di prendere campioni nel contesto.

Ora, il team annuncia il rilascio della versione 2 con cinque modelli OpenFlamingo addestrati ai livelli 3B, 4B e 9B. Questi modelli derivano da modelli open source con licenze meno rigorose rispetto a LLaMA, tra cui MPT-1B e 7B di Mosaic e RedPajama-3B di Together.XYZ.

I ricercatori hanno utilizzato il paradigma di modellazione Flamingo aggiungendo caratteristiche visive agli strati di un modello di linguaggio statico che è già stato preaddestrato. L’encoder di visione e il modello di linguaggio vengono mantenuti statici, ma i moduli di connessione vengono addestrati utilizzando sequenze di immagini e testo acquisite dal web, simili a Flamingo.

Il team ha testato i propri modelli di sottotitolazione, risposta alle domande visive e classificazione su set di dati visione-linguaggio. I risultati mostrano che il team ha fatto progressi significativi tra la loro versione 1 e il modello OpenFlamingo-9B v2.

Combinano i risultati di sette set di dati e cinque contesti diversi per valutare l’efficacia dei modelli: nessun campione, quattro campioni, otto campioni, sedici campioni e trentadue campioni. Confrontano i modelli OpenFlamingo (OF) ai livelli OF-3B e OF-4B con quelli ai livelli Flamingo-3B e Flamingo-9B, e scoprono che, in media, OpenFlamingo (OF) raggiunge più dell’80% delle prestazioni di Flamingo. I ricercatori confrontano anche i loro risultati con le migliori ottimizzazioni pubblicate su PapersWithCode. I modelli OpenFlamingo-3B e OpenFlamingo-9B, preaddestrati solo sui dati online, raggiungono oltre il 55% delle prestazioni sintonizzate con 32 istanze nel contesto. I modelli di OpenFlamingo sono in ritardo rispetto a quelli di DeepMind di una media del 10% nello 0-shot e del 15% nel 32-shot.

Il team sta continuamente facendo progressi nell’addestramento e nella fornitura di modelli multimodali all’avanguardia. Il loro obiettivo successivo è migliorare la qualità dei dati utilizzati per il preaddestramento.