Incontra MindGPT un decodificatore neurale non invasivo che interpreta gli stimoli visivi percepiti in lingue naturali dai segnali fMRI

Incontra MindGPT il decodificatore neurale non invasivo che traduce gli stimoli visivi percepiti in linguaggio naturale attraverso i segnali fMRI

Per comunicare con gli altri, gli esseri umani possono utilizzare solo un numero limitato di parole per spiegare ciò che vedono nel mondo esterno. Questa abilità cognitiva adattabile mostra che le informazioni semantiche comunicate attraverso il linguaggio sono intricate con diverse forme di input sensoriali, in particolare per la visione. Secondo le indagini neuroscientifiche, le rappresentazioni semantiche amodali sono condivise tra le esperienze visive e linguistiche. Ad esempio, la parola “gatto” genera informazioni concettuali paragonabili all’immagine mentale di un gatto. Tuttavia, le relazioni semantiche tra le categorie concettuali e la transizione fluida tra le modalità V&L sono state solo talvolta quantificate o realizzate utilizzando modelli computazionali.

Ricerche recenti sui decoder neurali hanno dimostrato che il contenuto visivo può essere ricreato dalle rappresentazioni della corteccia visiva catturate tramite risonanza magnetica funzionale. Tuttavia, la sfocatura e la mancanza di significato semantico o il mismatch delle immagini ricostruite persistono. D’altra parte, la comunità neuroscientifica ha fornito forti prove a sostegno dell’affermazione che la VC del cervello può accedere a idee semantiche sia in forma V&L. I risultati ci spingono a sviluppare nuove attrezzature di “lettura mentale” per tradurre ciò che si percepisce verbalmente. Tale sforzo ha un considerevole valore scientifico nell’illuminare i meccanismi di integrazione semantica cross-modale e può offrire informazioni utili per interfacce cerebro-computer augmentative o ricostruttive.

Gli autori dell’Università di Zhejiang introducono MindGPT, un decoder neurale linguistico non invasivo che converte i pattern della risposta emodinamica cerebrale prodotti da stimoli visivi statici in sequenze di parole ben formate, come si vede nella Fig. 1 a sinistra. Secondo loro conoscenza, Tang e altri hanno per la prima volta cercato di creare un decoder neurale non invasivo per la ricostruzione della parola percepita che può persino recuperare il significato di film muti per il decoder linguistico non invasivo. Tuttavia, poiché la risonanza magnetica funzionale ha una bassa risoluzione temporale, è necessario raccogliere molti dati di fMRI per prevedere il significato semantico dettagliato tra le parole candidate e le risposte cerebrali indotte.

Figura 1: Sinistra: l’intero pipeline del decoder linguistico non invasivo MindGPT. A destra: i risultati della nostra ricostruzione MindGPT, il modello di didascalia immagine SMALLCAP e gli approcci di decodifica visiva VQ-fMRI e MinD-Vis.

Invece, questa ricerca si concentra sul fatto che e in che misura le mappe linguistiche amodali vengono etichettate semanticamente dalle esperienze sensoriali visive statiche, come ad esempio un’immagine singola. Il loro MindGPT è stato costruito per soddisfare due requisiti importanti: (i) deve essere in grado di estrarre rappresentazioni semantiche visive da attività cerebrale e (ii) deve includere un metodo per convertire gli VSR appresi in sequenze di parole correttamente costruite. Hanno prima deciso di utilizzare un grande modello di linguaggio, GPT-2, come loro generatore di testo. Questo modello è stato preaddestrato su un dataset di milioni di siti web chiamato WebText e ci permette di limitare i modelli di frasi per assomigliare al naturale inglese ben formato.

Successivamente, per colmare il divario di significato tra le rappresentazioni linguistiche cerebro-visive di fine a fine, adottano un codificatore di fMRI guidato da CLIP semplice ma efficace con livelli di attenzione incrociata. Questa formulazione di decodifica neurale ha un numero molto basso di parametri apprendibili, rendendola leggera ed efficiente. Hanno dimostrato in questo lavoro che il MindGPT potrebbe fungere da collegamento tra la VC del cervello e la macchina per trasformazioni semantiche affidabili V&L. La loro tecnica ha appreso rappresentazioni semantiche cerebrali generalizzabili e una comprensione approfondita delle modalità B & V & L poiché il linguaggio che produce cattura accuratamente la semantica visiva degli input osservati.

Inoltre, hanno scoperto che anche con pochi dati di addestramento delle immagini fMRI, il MindGPT ben addestrato sembra emergere con la capacità di registrare suggerimenti visivi delle immagini dello stimolo, rendendo più facile per noi indagare come le caratteristiche visive contribuiscono alla semantica del linguaggio. Hanno anche notato, con l’aiuto di uno strumento di visualizzazione, che le rappresentazioni latenti del cervello insegnate da MindGPT avevano caratteristiche sensibili alla località sia negli aspetti visivi di basso livello che nelle idee semantiche di alto livello, coerenti con alcune scoperte del campo della neuroscienza. In generale, il loro MindGPT ha rivelato che, a differenza dei lavori precedenti, è possibile dedurre le relazioni semantiche tra le rappresentazioni V&L dal VC del loro cervello senza considerare la risoluzione temporale della fMRI.