Svelando i segreti dei neuroni multimodali Un viaggio da Molyneux ai Transformers

Svelando i segreti dei neuroni multimodali Un viaggio da Molyneux ai Transformers

“`html

I Transformers potrebbero essere una delle innovazioni più importanti nel campo dell’intelligenza artificiale. Queste architetture di reti neurali, introdotte nel 2017, hanno rivoluzionato il modo in cui le macchine comprendono e generano il linguaggio umano.

A differenza dei loro predecessori, i transformers si basano su meccanismi di auto-attenzione per elaborare i dati di input in parallelo, consentendo loro di catturare relazioni e dipendenze nascoste all’interno di sequenze di informazioni. Questa capacità di elaborazione parallela non solo ha accelerato i tempi di allenamento, ma ha anche aperto la strada allo sviluppo di modelli con livelli significativi di sofisticazione e prestazioni, come il famoso ChatGPT.

Gli anni recenti ci hanno mostrato quanto siano capaci le reti neurali artificiali in una varietà di compiti. Hanno cambiato i compiti linguistici, i compiti visivi, ecc. Ma il vero potenziale risiede nei compiti crossmodali, in cui integrano varie modalità sensoriali, come la visione e il testo. Questi modelli sono stati potenziati con input sensoriali aggiuntivi e hanno ottenuto prestazioni impressionanti in compiti che richiedono la comprensione e l’elaborazione di informazioni da fonti diverse.

Nel 1688, un filosofo di nome William Molyneux presentò a John Locke un intrigante enigma che avrebbe continuato a catturare la mente degli studiosi per secoli. La domanda che pose era semplice ma profonda: se una persona cieca dalla nascita acquisisse improvvisamente la vista, sarebbe in grado di riconoscere gli oggetti che aveva conosciuto solo attraverso il tatto e gli altri sensi non visivi? Questa interessante indagine, nota come Problema di Molyneux, non solo approfondisce i campi della filosofia, ma ha anche implicazioni significative per la scienza della visione.

Nel 2011, i neuroscienziati della visione hanno avviato una missione per rispondere a questa antica domanda. Hanno scoperto che il riconoscimento visivo immediato degli oggetti precedentemente toccati non è fattibile. Tuttavia, la rivelazione importante è stata che i nostri cervelli sono straordinariamente adattabili. Nel giro di pochi giorni dall’intervento chirurgico di ripristino della vista, gli individui sono stati in grado di imparare rapidamente a riconoscere gli oggetti visualmente, colmando il divario tra diverse modalità sensoriali.

Questo fenomeno è valido anche per i neuroni multimodali? È ora di scoprirlo.

Neuroni multimodali in MLP di transformer si attivano su caratteristiche specifiche. Fonte: https://arxiv.org/pdf/2308.01544.pdf

Ci troviamo nel bel mezzo di una rivoluzione tecnologica. Le reti neurali artificiali, in particolare quelle addestrate su compiti linguistici, hanno mostrato una notevole abilità nei compiti crossmodali, in cui integrano varie modalità sensoriali, come la visione e il testo. Questi modelli sono stati potenziati con input sensoriali aggiuntivi e hanno ottenuto prestazioni impressionanti in compiti che richiedono la comprensione e l’elaborazione di informazioni da fonti diverse.

Un approccio comune in questi modelli visione-linguaggio consiste nell’utilizzare una forma di accordo prefissato condizionato dall’immagine. In questa configurazione, un codificatore di immagini separato viene allineato con un decodificatore di testo, spesso con l’aiuto di uno strato adattatore appreso. Mentre diversi metodi hanno utilizzato questa strategia, di solito si sono basati su codificatori di immagini, come CLIP, addestrati insieme a modelli di linguaggio.

Tuttavia, uno studio recente, LiMBeR, ha introdotto uno scenario unico che rispecchia il Problema di Molyneux nelle macchine. Hanno utilizzato una rete di immagini auto-supervisata, BEIT, che non aveva mai visto dati linguistici, e l’hanno collegata a un modello di linguaggio, GPT-J, utilizzando uno strato di proiezione lineare addestrato su un compito di traduzione da immagine a testo. Questa configurazione intrigante solleva domande fondamentali: la traduzione dei significati tra le modalità avviene all’interno del livello di proiezione, o l’allineamento delle rappresentazioni di visione e linguaggio avviene all’interno del modello di linguaggio stesso?

I primi cinque neuroni multimodali per un’immagine di esempio da 6 supercategorie COCO. Fonte: https://arxiv.org/pdf/2308.01544.pdf

“`

La ricerca presentata dagli autori al MIT cerca di trovare risposte a questo mistero secolare di 4 secoli e di fare luce su come funzionano questi modelli multimodali.

Innanzitutto, hanno scoperto che le immagini trasformate nello spazio embedding del transformer non codificano semantica interpretabile. Invece, la traduzione tra modalità avviene all’interno del transformer.

In secondo luogo, all’interno dei MLP (Multilayer Perceptron) solo testuali sono stati scoperti neuroni multimodali in grado di elaborare informazioni sia di immagini che di testo con semantica simile. Questi neuroni svolgono un ruolo cruciale nella traduzione di rappresentazioni visive in linguaggio.

La scoperta finale e forse la più importante è che questi neuroni multimodali hanno un effetto causale sull’output del modello. Modulando questi neuroni si possono rimuovere concetti specifici dalle didascalie delle immagini, sottolineando la loro importanza nella comprensione multimodale dei contenuti.

Questa indagine sul funzionamento interno delle singole unità all’interno delle reti profonde porta alla luce una serie di informazioni. Proprio come le unità di convoluzione nei classificatori di immagini possono rilevare colori e pattern, e unità successive possono riconoscere categorie di oggetti, i neuroni multimodali si trovano a emergere nei transformer. Questi neuroni sono selettivi per immagini e testi con semantica simile.

Inoltre, i neuroni multimodali possono emergere anche quando visione e linguaggio vengono appresi separatamente. Sono in grado di convertire efficacemente rappresentazioni visive in testo coerente. Questa capacità di allineare rappresentazioni tra modalità ha implicazioni di ampia portata, rendendo i modelli linguistici strumenti potenti per vari compiti che implicano modellazione sequenziale, dalla previsione delle strategie di gioco alla progettazione di proteine.