Una nuova ricerca sull’IA proveniente dalla Cina propone Meta-Transformer un framework unificato per l’apprendimento multimodale dell’IA

New AI research from China proposes Meta-Transformer, a unified framework for multimodal AI learning.

Il cervello umano, considerato il paradigma delle teorie delle reti neurali, elabora contemporaneamente informazioni da diversi input sensoriali, come segnali visivi, uditivi e tattili. Inoltre, la comprensione da una fonte può aiutare la conoscenza da un’altra. Tuttavia, a causa del grande divario di modalità nell’apprendimento profondo, costruire una rete unificata in grado di elaborare diverse forme di input richiede molto lavoro. I modelli addestrati su una modalità di dati devono essere adattati per funzionare con diversi pattern di dati di ciascuna modalità di dati. A differenza del linguaggio parlato, le fotografie hanno un significativo grado di ridondanza delle informazioni causato dai pixel densamente impacchettati nelle immagini. 

Al contrario, i punti cloud sono difficili da descrivere a causa della loro distribuzione scarsa nello spazio 3D e della maggiore suscettibilità al rumore. Gli spettrogrammi audio sono modelli di dati non stazionari e variabili nel tempo composti da combinazioni di onde provenienti da diversi domini di frequenza. I dati video hanno la capacità unica di registrare informazioni spaziali e dinamiche temporali poiché sono composti da una serie di fotogrammi. I dati del grafo modellano interazioni complesse, molti-a-molti, tra entità rappresentando gli elementi come nodi e le relazioni come archi in un grafo. A causa delle significative disparità tra diverse modalità di dati, è pratica comune utilizzare altre topologie di rete per codificare ogni modalità di dati in modo indipendente. 

Ad esempio, Point Transformer utilizza l’attenzione delle posizioni a livello di vettore per estrarre informazioni strutturali dalle coordinate 3D, ma non può codificare un’immagine, una frase di linguaggio naturale o una fetta di spettrogramma audio. Pertanto, creare un unico framework che possa utilizzare uno spazio dei parametri condiviso da diverse modalità per codificare diversi tipi di dati richiede tempo ed impegno. Attraverso un’ampia preformazione multimodale su dati accoppiati, i framework unificati recentemente sviluppati come VLMO, OFA e BEiT-3 hanno migliorato la capacità della rete di comprensione multimodale. Tuttavia, a causa della maggiore enfasi sulla visione e sul linguaggio, non possono condividere l’intero codificatore tra modalità. L’apprendimento profondo ha tratto grandi benefici dall’architettura dei transformer e dal meccanismo di attenzione presentato da altri ricercatori per l’elaborazione del linguaggio naturale (NLP). 

Questi sviluppi hanno notevolmente migliorato la percezione in una varietà di modalità, tra cui visione 2D (tra cui ViT e Swin Transformer), visione 3D (tra cui Point Transformer e Point-ViT), elaborazione di segnali uditivi (AST), ecc. Questi studi hanno illustrato l’adattabilità dei design basati sui transformer e hanno motivato gli accademici a indagare se sia possibile creare modelli di base per combinare diverse modalità, realizzando infine una percezione umana a livello di tutte le modalità. La Figura 1 illustra come viene esaminato il potenziale del design dei transformer per gestire 12 modalità, tra cui immagini, linguaggio naturale, punti cloud, spettrogrammi audio, video, infrarossi, iperspettrali, raggi X, IMU, dati tabulari, dati di grafi e serie temporali. 

Figura 1: Meta-Transformer – L’apprendimento multimodale unificato: il linguaggio naturale, l’immagine, il punto cloud, l’audio, il video, l’infrarosso, l’iperspettrale, i raggi X, le serie temporali, i dati tabulari, l’unità di misura inerziale (IMU) e i dati di grafi vengono tutti codificati da Meta-Transformer utilizzando la stessa struttura di base. Mostra come i sistemi dei transformer possono fornire intelligenza multimodale unificata.

Vengono discusse il processo di apprendimento per ogni modalità utilizzando i transformers e le difficoltà nel combinarle in un framework unificato. Di conseguenza, i ricercatori dell’Università Cinese di Hong Kong e del Laboratorio di Intelligenza Artificiale di Shanghai suggeriscono un nuovo framework integrato per l’apprendimento multimodale chiamato Meta-Transformer. Il primo framework, Meta-Transformer, utilizza lo stesso insieme di parametri per codificare contemporaneamente l’input proveniente da una dozzina di modalità diverse, consentendo un approccio più integrato all’apprendimento multimodale. Un esperto di modalità per la tokenizzazione da dati a sequenze, un codificatore condiviso per estrarre rappresentazioni tra modalità e capi specifici del compito per i compiti successivi sono i tre componenti semplici ma preziosi di Meta-Transformer. Per essere più precisi, Meta-Transformer crea innanzitutto sequenze di token con spazi di varietà condivisi dai dati multimodali. 

Dopo di ciò, le rappresentazioni vengono estratte utilizzando un encoder condiviso per la modalità con parametri congelati. Le singole attività vengono ulteriormente personalizzate utilizzando tokenizzatori leggeri e parametri aggiornati delle testate delle attività successive. Infine, questo approccio diretto può addestrare efficientemente rappresentazioni specifiche per l’attività e generiche per la modalità. Svolgono una ricerca sostanziale utilizzando diversi standard provenienti da 12 modalità. Meta-Transformer svolge un eccezionale elaborazione di dati provenienti da diverse modalità, superando costantemente le tecniche all’avanguardia in varie attività di apprendimento multimodale utilizzando solo immagini provenienti dal dataset LAION-2B per il preaddestramento.

In conclusione, i loro contributi sono i seguenti:

• Offrono un framework unico chiamato Meta-Transformer per la ricerca multimodale che consente a un singolo encoder di estrarre contemporaneamente rappresentazioni da diverse modalità utilizzando lo stesso set di parametri.

• Investigano approfonditamente i ruoli ricoperti dai componenti del transformer come gli embedding, la tokenizzazione e gli encoder nel processo di elaborazione di modalità multiple per l’architettura di rete multimodale.

• Sperimentalmente, Meta-Transformer raggiunge prestazioni eccezionali su vari dataset relativi a 12 modalità, il che conferma il potenziale futuro di Meta-Transformer per l’apprendimento multimodale unificato.

• Meta-Transformer apre una promettente nuova direzione nello sviluppo di un framework agnostico per la modalità che unifica tutte le modalità.