I ricercatori della CMU introducono MultiModal Graph Learning (MMGL) un nuovo framework di intelligenza artificiale per catturare informazioni da molteplici vicini multimodali con strutture relazionali tra di loro.

I ricercatori della CMU presentano MultiModal Graph Learning (MMGL) un nuovo framework di intelligenza artificiale per estrarre informazioni da vicini multimodali e le loro strutture relazionali.

Il multimodal graph learning è un campo multidisciplinare che combina concetti di machine learning, teoria dei grafi e fusione dei dati per affrontare problemi complessi che coinvolgono diverse fonti di dati e le loro interconnessioni. Il multimodal graph learning può generare didascalie descrittive per le immagini combinando i dati visivi con le informazioni testuali. Può migliorare l’accuratezza nel recupero di immagini o documenti di testo pertinenti in base alle query. Il multimodal graph learning viene anche utilizzato nei veicoli autonomi per combinare i dati provenienti da vari sensori, come telecamere, LiDAR, radar e GPS, al fine di migliorare la percezione e prendere decisioni di guida informate.

I modelli attuali dipendono dalla generazione di immagini/testo su testo/immagini dati usando codificatori di immagini pre-addestrati e LMs. Utilizzano il metodo delle modalità di coppia con un chiaro mappaggio 1:1 in input. Nel contesto del multimodal graph learning, le modalità si riferiscono a tipi o modalità distinte di dati e fonti di informazioni. Ogni modalità rappresenta una categoria o un aspetto specifico dei dati e può assumere forme diverse. Il problema sorge quando si applicano questi modelli a mapping molti-a-molti tra le modalità.

I ricercatori della Carnegie Mellon University propongono un framework generale e sistematico di multimodal graph learning per compiti generativi. Il loro metodo prevede la cattura di informazioni da molti vicini multimodali con strutture relazionali tra loro. Propongono di rappresentare le relazioni complesse come grafi per catturare dati con qualsiasi numero di modalità e relazioni complesse tra modalità che possono variare in modo flessibile da un campione a un altro.

Il loro modello estrae le codifiche dei vicini e le combina con la struttura del grafo, seguito dall’ottimizzazione del modello tramite un fine tuning efficiente dei parametri. Per comprendere appieno i mapping molti-a-molti, il team ha studiato modelli di codifica dei vicini come self-attention con testo e embedding, self-attention solo con embedding e cross-attention con embedding. Hanno utilizzato codifiche di posizione con autovalore laplaciano (LPE) e codifica di rete neurale di grafo (GNN) per confrontare le codifiche di posizione sequenziali.

Il fine tuning richiede spesso una quantità considerevole di dati etichettati specifici per il compito di destinazione. Se si dispone già di un dataset pertinente o è possibile ottenerlo a un costo ragionevole, il fine tuning può essere vantaggioso in termini di costo rispetto all’addestramento di un modello da zero. I ricercatori utilizzano il fine tuning con prefisso e LoRA per self-attention con testo e embedding (SA-TE) e il fine tuning in stile Flamingo per i modelli di cross-attention con embedding (CA-E). Hanno riscontrato che il fine tuning con prefisso utilizza quasi quattro volte meno parametri con la codifica dei vicini SA-TE, diminuendo così il costo.

Il loro lavoro di ricerca è un’analisi approfondita per gettare le basi per future ricerche ed esplorazioni nel campo del multimodal graph learning. I ricercatori affermano che le prospettive future del multimodal graph learning sono promettenti e ci si aspetta un significativo sviluppo guidato dai progressi nell’apprendimento automatico, nella raccolta dei dati e nella crescente necessità di gestire dati complessi e multi-modali in diverse applicazioni.