Questo articolo di IA propone FACTORCL un nuovo metodo di apprendimento della rappresentazione multimodale per andare oltre la ridondanza multi-vista

Questo articolo di IA introduce FACTORCL, un nuovo approccio di apprendimento della rappresentazione multimodale per superare la ridondanza multi-vista

Uno dei principali paradigmi nell’apprendimento automatico è l’apprendimento delle rappresentazioni da diverse modalità. L’apprendimento preliminare delle immagini su dati multimodali non etichettati e successivamente il riaffinamento con etichette specifiche per la domanda è oggi una strategia comune. Le attuali tecniche di preallenamento multimodale derivano principalmente da ricerche precedenti sull’apprendimento multi-view, che sfrutta una premessa fondamentale della ridondanza multi-view: la caratteristica che le informazioni scambiate tra le modalità sono quasi interamente pertinenti per le attività che seguono. Supponendo che ciò sia vero, gli approcci che utilizzano il preallenamento contrastivo per catturare dati condivisi e successivamente il riaffinamento per conservare le informazioni condivise pertinenti per l’attività sono stati applicati con successo all’apprendimento dal parlato e dal testo trascritto, dalle immagini alle didascalie, dal video all’audio, dalle istruzioni alle azioni.

Tuttavia, il loro studio esamina due restrizioni chiave sull’uso dell’apprendimento contrastivo (CL) in contesti multimodali reali più ampi:

1. Basso scambio di informazioni pertinenti alle attività. Esistono molte attività multimodali con poche informazioni condivise, come ad esempio quelle tra immagini di cartoni animati e didascalie figurative (cioè descrizioni delle immagini che sono metaforiche o idiomatiche anziché letterali). In queste condizioni, i classici CL multimodali troveranno difficile acquisire le informazioni pertinenti richieste e impareranno solo una piccola porzione delle rappresentazioni insegnate.

2. Dati altamente distintivi pertinenti alle attività. Numerose modalità possono fornire informazioni diverse che non si trovano in altre modalità. Un esempio sono i robot che utilizzano sensori di forza e l’assistenza sanitaria con sensori medici.

Le informazioni uniche pertinenti alle attività saranno ignorate dai CL standard, il che comporterà prestazioni subottimali. Come possono creare obiettivi di apprendimento multimodale appropriati più della ridondanza multi-view alla luce di queste limitazioni? I ricercatori della Carnegie Mellon University, dell’University of Pennsylvania e della Stanford University in questo documento partono dai fondamenti della teoria dell’informazione e presentano un metodo chiamato FACTORIZED CONTRASTIVE LEARNING (FACTORCL) per apprendere queste rappresentazioni multimodali oltre alla ridondanza multi-view. Definiscono formalmente le informazioni condivise e uniche attraverso affermazioni di mutua condizionalità.

Prima di tutto, viene considerata l’idea di esplicitare le rappresentazioni comuni e uniche. Il secondo approccio per creare rappresentazioni con il giusto e necessario contenuto informativo consiste nel massimizzare i limiti inferiori di MI per ottenere informazioni pertinenti alle attività e nel minimizzare i limiti superiori di MI per estrarre informazioni non pertinenti alle attività. Infine, l’utilizzo di aumentazioni multimodali stabilisce la rilevanza delle attività nello scenario a autoapprendimento senza etichettatura esplicita. Utilizzando una varietà di set di dati sintetici e ampi benchmark multimodali del mondo reale che coinvolgono immagini e linguaggio figurativo, valutano sperimentalmente l’efficacia di FACTORCL nella previsione di sentimenti umani, emozioni, umorismo e sarcasmo, nonché di malattie e previsioni di mortalità dei pazienti a partire da indicatori di salute e letture dei sensori. Su sei set di dati, ottengono prestazioni all’avanguardia.

Ecco le loro principali contribuzioni tecnologiche:

1. Una recente indagine sulle prestazioni dell’apprendimento contrastivo dimostra che in scenari di basso scambio o informazioni uniche molto elevate, il CL multimodale tipico non riesce a raccogliere informazioni uniche rilevanti alle attività.

2. FACTORCL è un algoritmo di apprendimento contrastivo completamente nuovo:

(A) Per migliorare l’apprendimento contrastivo nella gestione di scambi bassi o informazioni uniche molto elevate, FACTORCL suddivide le informazioni rilevanti alle attività in informazioni condivise e uniche.

(B) FACTORCL ottimizza le informazioni condivise e uniche in modo indipendente, producendo rappresentazioni di attività ottimali catturando informazioni rilevanti alle attività tramite limiti inferiori ed eliminando le informazioni non pertinenti alle attività utilizzando i limiti superiori di MI.

(C) Utilizzando aumentazioni multimodali per stimare informazioni rilevanti alle attività, FACTORCL consente l’apprendimento auto-supervisionato dal FACTORCL che hanno sviluppato.