EPFL e i ricercatori di Apple rendono open-source 4M un framework di intelligenza artificiale per addestrare modelli di fondazione multimodali attraverso decine di modalità e compiti.

EPFL e i ricercatori di Apple rendono open-source 4M, un framework di intelligenza artificiale per addestrare modelli di fondazione multimodali attraverso decine di modalità e compiti.

La formazione di modelli linguistici di grandi dimensioni (LLM) in grado di gestire in modo naturale diverse attività senza modifiche specifiche per le singole attività è diventata sempre più popolare nell’elaborazione del linguaggio naturale (NLP). C’è ancora bisogno di creare modelli altrettanto flessibili e scalabili per la visione, anche se questi modelli hanno mostrato un successo eccezionale nell’NLP. La capacità di gestire molte modalità di input e attività di output è fondamentale per la scalabilità e la versatilità della visione.

I modelli di visione devono gestire diversi input sensoriali, tra cui immagini, 3D e testo, e svolgere diverse attività. Per quanto riguarda la visione, addestrare su immagini RGB con un singolo scopo non ha prodotto gli stessi risultati della modellazione del linguaggio sul testo grezzo, il che ha portato a capacità di multitasking nell’elaborazione del linguaggio naturale. Di conseguenza, la formazione dovrebbe sfruttare una varietà di modalità e attività.

Dati, architettura e obiettivo di formazione sono tre fattori critici da considerare nella costruzione di un modello con le caratteristiche desiderabili del modello di base di visione. La scalabilità dei dati si riferisce alla capacità di sfruttare un numero maggiore di campioni di addestramento per migliorare le prestazioni. In termini architettonici, la scalabilità significa che le prestazioni migliorano con l’aumentare delle dimensioni del modello e rimangono stabili quando vengono addestrati con dimensioni enormi. Infine, un obiettivo di formazione scalabile dovrebbe essere in grado di gestire efficientemente un numero crescente di modalità senza far schizzare i costi computazionali.

Nuove ricerche condotte dal Politecnico di Losanna (EPFL) e da Apple mirano alla scalabilità in tutti e tre gli ambiti continuando ad essere compatibili con diversi tipi di input.

Per superare questi ostacoli, il team presenta una strategia che prevede la formazione di un singolo codificatore-decodificatore Transformer integrato con un obiettivo di modellazione mascherata multimodale. 4M sta per “Modello di Modelli Mascherati Massimamente Multimodali”, mettendo in evidenza la capacità dell’approccio di espandersi a diverse modalità varie. Questo approccio combina le migliori caratteristiche della modellazione mascherata e dell’apprendimento multimodale:

  1. Forti capacità di codifica predittiva cross-modale e rappresentazioni condivise di scene,
  2. Campionamento iterativo che consente l’utilizzo dei modelli per compiti generativi.
  3. L’obiettivo della pre-formazione è quello di apprendere in modo efficace rappresentazioni ricche.

È importante sottolineare che 4M integra questi vantaggi mantenendo l’efficienza attraverso molti processi. Attraverso l’uso di tokenizzatori specifici per la modalità, le modalità possono essere convertite con formati diversi in insiemi o sequenze di token discreti, consentendo ad un singolo Transformer di essere addestrato su testo, bounding boxes, immagini o caratteristiche di reti neurali, tra gli altri. Questo unifica i loro domini rappresentativi. Poiché gli encoder e gli head specifici per le attività non sono più necessari, il Transformer può essere utilizzato con qualsiasi modalità e mantenere la condivisione dei parametri grazie a questo approccio di tokenizzazione, migliorando la compatibilità, la scalabilità e la condivisione.

Inoltre, 4M può essere addestrato in modo efficiente utilizzando la mascheratura dell’input e del target, anche se opera su una vasta collezione di modalità. Ciò richiede la selezione di un piccolo subset di token in modo casuale da tutte le modalità da utilizzare come input del modello e un altro piccolo subset come target. Per raggiungere un obiettivo di formazione scalabile, è necessario decouplare il numero di input e target tokens dal numero di modalità. Ciò impedisce che il costo computazionale aumenti rapidamente all’aumentare del numero di modalità. Utilizzando CC12M e altri set di dati disponibili con modalità singola o coppie testo-immagine, vengono creati dati di binding allineati a livello modale utilizzando potenti reti di pseudo-etichettatura.

Senza richiedere loro di includere annotazioni multimodali/multitasking, questo metodo di pseudo-etichettatura consente di addestrare su set di dati diversi e di ampia scala. Oltre a eccellere in numerose importanti attività visive sin dall’inizio, i modelli 4M possono essere ottimizzati per ottenere risultati notevoli su attività successive e modalità di input non previste.

Inoltre, è necessario utilizzare un obiettivo di modellazione mascherata multimodale per addestrare modelli generativi direzionabili che possono essere condizionati da qualsiasi modalità. Ciò consente una diversa espressione dell’intento dell’utente e diverse attività di modifica multimodale. I parametri che influenzano le prestazioni di 4M vengono quindi studiati in un’analisi di ablazione approfondita. Questa analisi completa, unita alla semplicità e alla generalizzabilità di questo metodo, dimostra che 4M ha un grande potenziale per molte attività di visione e sviluppi futuri.