Questa ricerca sul cervello-AI ricrea immagini leggendo le onde cerebrali con diffusione stabile

La ricerca sul cervello-AI ricrea immagini leggendo le onde cerebrali.

Costruire sistemi artificiali che vedono e riconoscono il mondo in modo simile ai sistemi visivi umani è un obiettivo chiave della visione artificiale. I recenti progressi nella misurazione dell’attività cerebrale della popolazione, insieme a miglioramenti nell’implementazione e nel design dei modelli di reti neurali profonde, hanno reso possibile confrontare direttamente le caratteristiche architettoniche delle reti artificiali con quelle delle rappresentazioni latenti dei cervelli biologici, rivelando dettagli cruciali su come funzionano questi sistemi. La ricostruzione di immagini visive dall’attività cerebrale, come quella rilevata dalla risonanza magnetica funzionale (fMRI), è una di queste applicazioni. Si tratta di un problema affascinante ma difficile perché le rappresentazioni cerebrali sottostanti sono in gran parte sconosciute e la dimensione del campione tipicamente utilizzata per i dati cerebrali è piccola.

I modelli e le tecniche di deep learning, come le reti generative avversariali (GAN) e l’apprendimento auto-supervisionato, sono stati recentemente utilizzati dagli accademici per affrontare questa sfida. Tuttavia, queste indagini richiedono o il raffinamento verso gli stimoli particolari utilizzati nell’esperimento fMRI o l’addestramento di nuovi modelli generativi con dati fMRI da zero. Questi tentativi hanno dimostrato una grande ma limitata performance in termini di fedeltà pixel-per-pixel e semantica, in parte a causa della piccola quantità di dati neuroscienze e in parte a causa delle molteplici difficoltà associate alla costruzione di modelli generativi complessi.

I Modelli di Diffusione, in particolare i Modelli di Diffusione Latenti che richiedono meno risorse computazionali, sono un sostituto recente delle GAN. Tuttavia, poiché i LDM sono ancora relativamente nuovi, è difficile avere una comprensione completa di come funzionano internamente.

Utilizzando un LDM chiamato “Stable Diffusion” per ricostruire immagini visive dai segnali fMRI, un team di ricerca dell’Università di Osaka e CiNet ha cercato di affrontare le problematiche menzionate in precedenza. Hanno proposto un quadro semplice che può ricostruire immagini ad alta risoluzione con elevata fedeltà semantica senza la necessità di addestrare o ottimizzare modelli di deep learning complessi.

Il dataset utilizzato dagli autori per questa indagine è il Natural Scenes Dataset (NSD), che offre dati raccolti da una scanner fMRI in 30-40 sessioni durante le quali ogni soggetto ha visualizzato tre ripetizioni di 10.000 immagini.

Fonte: https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full

Per iniziare, hanno utilizzato un Modello di Diffusione Latente per creare immagini da testi. Nella figura sopra (in alto), z è definito come la rappresentazione latente generata di z che è stata modificata dal modello con c, c è definito come la rappresentazione latente dei testi (che descrivono le immagini) e zc è definito come la rappresentazione latente dell’immagine originale che è stata compressa dall’autocoder.

Per analizzare il modello di decodifica, gli autori hanno seguito tre passaggi (figura sopra, al centro). In primo luogo, hanno previsto una rappresentazione latente z dell’immagine presentata X dai segnali fMRI all’interno della corteccia visiva primaria (blu). z è stato quindi elaborato da un decodificatore per produrre un’immagine decodificata approssimativa Xz, che è stata quindi codificata e sottoposta al processo di diffusione. Infine, l’immagine rumorosa è stata aggiunta a una rappresentazione testuale latente decodificata c dai segnali fMRI all’interno della corteccia visiva superiore (giallo) e denoizzata per produrre zc. Da zc, un modulo di decodifica ha prodotto un’immagine ricostruita finale Xzc. È importante sottolineare che l’unico addestramento richiesto per questo processo è la mappatura lineare dei segnali fMRI ai componenti LDM, zc, z e c.

Partendo da zc, z e c, gli autori hanno eseguito un’analisi di codifica per interpretare le operazioni interne dei LDM mappandoli all’attività cerebrale (figura sopra, in basso). I risultati della ricostruzione delle immagini dalle rappresentazioni sono mostrati di seguito.

Fonte: https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full

Le immagini che sono state ricreate utilizzando semplicemente z avevano una coerenza visiva con le immagini originali, ma il loro valore semantico era perso. D’altra parte, le immagini che sono state parzialmente ricostruite utilizzando c hanno prodotto immagini con un’alta fedeltà semantica ma una coerenza visiva inconsistente. La validità di questo metodo è stata dimostrata dalla capacità delle immagini recuperate utilizzando zc di produrre immagini ad alta risoluzione con un’alta fedeltà semantica.

L’analisi finale del cervello rivela nuove informazioni sui modelli DM. Nella parte posteriore del cervello, la corteccia visiva, tutti e tre i componenti hanno ottenuto un’ottima performance di previsione. In particolare, z ha fornito un’ottima performance di previsione nella corteccia visiva precoce, che si trova nella parte posteriore della corteccia visiva. Inoltre, ha dimostrato forti valori di previsione nella corteccia visiva superiore, che è la parte anteriore della corteccia visiva, ma valori più piccoli in altre regioni. D’altra parte, nella corteccia visiva superiore, c ha portato alla migliore performance di previsione.

Fonte: https://www.biorxiv.org/content/10.1101/2022.11.18.517004v2.full

Consulta il paper e la pagina del progetto. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di unirti al nostro subreddit di ML con oltre 26k membri, al canale Discord e alla newsletter via email, dove condividiamo le ultime notizie sulla ricerca di intelligenza artificiale, progetti interessanti di AI e altro ancora.

Svelare i segreti del deep learning con la piattaforma di spiegabilità di Tensorleap

L’articolo Questa ricerca sul cervello-AI ricrea immagini leggendo le onde cerebrali con la diffusione stabile è apparso per primo su MarkTechPost.