L’apprendimento profondo non supervisionato identifica lo sdoppiamento semantico nei singoli neuroni della patch facciale inferotemporale.

L'apprendimento profondo non supervisionato identifica lo sdoppiamento semantico nei neuroni della patch facciale inferotemporale.

Il nostro cervello ha una straordinaria capacità di elaborare le informazioni visive. Possiamo dare un’occhiata a una scena complessa e, nel giro di pochi millisecondi, essere in grado di analizzarla in oggetti e attributi, come il colore o la dimensione, e utilizzare queste informazioni per descrivere la scena in un linguaggio semplice. Alla base di questa capacità apparentemente senza sforzo c’è una complessa elaborazione svolta dalla nostra corteccia visiva, che coinvolge la trasformazione di milioni di impulsi neurali trasmessi dalla retina in una forma più significativa che può essere mappata alla descrizione in linguaggio semplice. Per comprendere appieno come funziona questo processo nel cervello, dobbiamo capire sia come l’informazione semanticamente significativa viene rappresentata nell’attività dei neuroni alla fine della gerarchia di elaborazione visiva, sia come tale rappresentazione possa essere appresa da un’esperienza in gran parte non insegnata.

Figura 1. La disentanglement si riferisce alla capacità delle reti neurali di scoprire attributi semanticamente significativi delle immagini senza essere insegnate esplicitamente quali siano questi attributi. Questi modelli imparano a mappare le immagini in una rappresentazione di dimensione inferiore attraverso una rete neurale di inferenza, e cercano di ricostruire l'immagine utilizzando una rete neurale di generazione. Ogni singola unità latente in una rappresentazione disentanglement impara a codificare un singolo attributo interpretabile, come il colore o la dimensione di un oggetto. Manipolando tali latenti uno alla volta si ottengono cambiamenti interpretabili nella ricostruzione dell'immagine generata. Animazione a cura di Chris Burgess.

Per rispondere a queste domande nel contesto della percezione facciale, ci siamo uniti ai nostri collaboratori al Caltech (Doris Tsao) e all’Accademia Cinese delle Scienze (Le Chang). Abbiamo scelto i volti perché sono ben studiati nella comunità scientifica e spesso sono considerati un “microcosmo del riconoscimento degli oggetti”. In particolare, volevamo confrontare le risposte dei singoli neuroni corticali nelle aree cerebrali dedicate ai volti, registrate dai nostri collaboratori, con una classe di reti neurali profonde chiamate “disentangling” che, a differenza dei comuni sistemi “black box”, mirano esplicitamente a essere interpretabili per gli esseri umani. Una rete neurale “disentangling” impara a mappare immagini complesse in un numero ridotto di neuroni interni (chiamati unità latenti), ognuno dei quali rappresenta un singolo attributo semanticamente significativo della scena, come il colore o la dimensione di un oggetto (vedi Figura 1). A differenza dei classificatori profondi “black box” addestrati a riconoscere oggetti visivi attraverso una quantità biologicamente irrealistica di supervisione esterna, questi modelli di disentanglement sono addestrati senza un segnale di insegnamento esterno utilizzando un obiettivo auto-supervisionato di ricostruzione delle immagini di input (generazione nella Figura 1) dalla loro rappresentazione latente appresa (ottenuta tramite inferenza nella Figura 1).

Il disentanglement è stato ipotizzato come un componente importante nella comunità dell’apprendimento automatico quasi dieci anni fa per costruire sistemi di intelligenza artificiale più efficienti dal punto di vista dei dati, trasferibili, equi e immaginativi. Tuttavia, per anni, la costruzione di un modello in grado di disentanglement nella pratica ha sfidato il campo. Il primo modello in grado di farlo con successo e in modo robusto, chiamato β-VAE, è stato sviluppato prendendo ispirazione dalla neuroscienza: β-VAE impara prevedendo i propri input; richiede un’esperienza visiva simile per un apprendimento efficace come quella incontrata dai bambini; e la sua rappresentazione latente appresa riflette le proprietà note del cervello visivo.

Nel nostro nuovo articolo, abbiamo misurato fino a che punto le unità disentanglement scoperte da un β-VAE addestrato su un set di immagini di volti sono simili alle risposte dei singoli neuroni alla fine dell’elaborazione visiva registrate in primati che guardano gli stessi volti. I dati neurali sono stati raccolti dai nostri collaboratori sotto il rigoroso controllo del Comitato Istituzionale per la Cura e l’Uso degli Animali del Caltech. Quando abbiamo effettuato il confronto, abbiamo trovato qualcosa di sorprendente: sembrava che le poche unità disentanglement scoperte da β-VAE si comportassero come se fossero equivalenti a un sottoinsieme di dimensioni simili dei neuroni reali. Osservando più da vicino, abbiamo trovato una forte corrispondenza uno a uno tra i neuroni reali e quelli artificiali (vedi Figura 2). Questa corrispondenza era molto più forte rispetto a quella per modelli alternativi, compresi i classificatori profondi considerati in precedenza i modelli computazionali di elaborazione visiva all’avanguardia, o un modello artigianale di percezione dei volti considerato lo “standard di riferimento” nella comunità della neuroscienza. Inoltre, le unità β-VAE stavano codificando informazioni semanticamente significative come l’età, il genere, la dimensione degli occhi o la presenza di un sorriso, consentendoci di capire quali attributi i singoli neuroni nel cervello utilizzano per rappresentare i volti.

Figura 2. Neuroni singoli nelle zone di faccia dei primati alla fine dell'elaborazione visiva rappresentano attributi facciali interpretabili, come la forma degli occhi o la presenza di un sorriso, ed sono equivalenti a singoli neuroni artificiali scoperti attraverso l'apprendimento della rappresentazione scindibile in β-VAE. Credito immagine: Marta Garnelo.

Se β-VAE fosse in grado di scoprire automaticamente unità latenti artificiali che sono equivalenti ai neuroni reali in termini di come rispondono alle immagini del viso, allora dovrebbe essere possibile tradurre l’attività dei neuroni reali nei loro corrispondenti artificiali e utilizzare il generatore (vedi Figura 1) del β-VAE addestrato per visualizzare quali volti i neuroni reali stanno rappresentando. Per testare ciò, abbiamo presentato ai primati nuove immagini di facce che il modello non aveva mai sperimentato prima e abbiamo verificato se potevamo renderle utilizzando il generatore di β-VAE (vedi Figura 3). Abbiamo scoperto che ciò era effettivamente possibile. Utilizzando l’attività di soli 12 neuroni, siamo stati in grado di generare immagini di facce che erano ricostruzioni più accurate degli originali e di migliore qualità visiva rispetto a quelle prodotte dagli altri modelli generativi profondi. Questo nonostante il fatto che si sa che i modelli alternativi sono generatori di immagini migliori di β-VAE in generale.

Figura 3. Le immagini di facce sono state ricostruite con precisione dal generatore di β-VAE addestrato utilizzando l'attività di 12 neuroni corrispondenti uno a uno nella corteccia visiva dei primati mentre i primati stavano osservando facce nuove. Immagini di facce nuove riprodotte con il permesso di Ma et al. e Phillips et al.

I nostri risultati, riassunti nel nuovo articolo, suggeriscono che il cervello visivo può essere compreso a livello di singolo neurone, anche alla fine della sua gerarchia di elaborazione. Questo è contrario alla comune convinzione che le informazioni semanticamente significative siano multiplexate tra un gran numero di tali neuroni, ognuno dei quali rimane in gran parte ininterpretabile individualmente, non dissimile da come le informazioni sono codificate attraverso strati completi di neuroni artificiali in classificatori profondi. Non solo questo, i nostri risultati suggeriscono che è possibile che il cervello impari a supportare la nostra capacità senza sforzo di percezione visiva ottimizzando l’obiettivo di disentanglement. Sebbene β-VAE sia stato originariamente sviluppato con ispirazione da principi di neuroscienze di alto livello, l’utilità delle rappresentazioni scindibili per il comportamento intelligente è stata finora dimostrata principalmente nella comunità di apprendimento automatico. In linea con la ricca storia di interazioni mutualmente vantaggiose tra neuroscienze e apprendimento automatico, speriamo che le ultime intuizioni provenienti dall’apprendimento automatico possano ora tornare alla comunità delle neuroscienze per indagare sul merito delle rappresentazioni scindibili per sostenere l’intelligenza nei sistemi biologici, in particolare come base per il ragionamento astratto o l’apprendimento di compiti generalizzabili ed efficienti.