Decifrare l’elaborazione uditiva come i modelli di deep learning riflettono il riconoscimento del parlato umano nel cervello

Decodificare l'elaborazione uditiva come i modelli di deep learning rispecchiano il riconoscimento del parlato umano nel cervello

Le ricerche affermano che i calcoli che convertono i dati uditivi in rappresentazioni linguistiche sono coinvolti nella percezione della voce. Il percorso uditivo viene attivato quando qualcuno ascolta il discorso, compresi le regioni corticali uditivo primarie e non primarie, il nervo uditivo e le strutture subcorticali. A causa delle circostanze ambientali e dei segnali uditivi in continua evoluzione per le unità percettive linguistiche, la percezione del discorso naturale è un’impresa difficile. Mentre i modelli cognitivi classici spiegano molte caratteristiche psicologiche della percezione del discorso, questi modelli non riescono a spiegare la codifica cerebrale e il riconoscimento naturale del discorso. I modelli di deep learning si avvicinano alle prestazioni umane nel riconoscimento automatico del discorso.

Per migliorare l’interpretabilità dei modelli di intelligenza artificiale e fornire nuovi modelli computazionali basati sui dati della percezione sensoriale, i ricercatori dell’ Università della California, San Francisco, mirano a correlare i calcoli e le rappresentazioni dei modelli di deep learning con le risposte neurali del sistema uditivo umano. L’obiettivo è identificare rappresentazioni e calcoli comuni tra il circuito uditivo umano e i modelli di rete neurale all’avanguardia del linguaggio. L’analisi si concentra sulle rappresentazioni di discorso della rete neurale convoluzionale profonda (DNN) correlate alle risposte neurali al discorso reale lungo il percorso uditivo ascendente e utilizza un framework per la codifica neurale.

Sono confrontati in modo metodico il circuito uditivo e i modelli di rete neurale convoluzionale, ricorrenti e di autoattenzione con varie architetture computazionali e procedure di addestramento (obiettivi supervisionati e non supervisionati). Inoltre, l’esame dei calcoli della DNN fornisce informazioni sui processi fondamentali che sottostanno alle previsioni di codifica neurale. A differenza dei tentativi di modellazione precedenti che si concentravano su una singola lingua, principalmente l’inglese, in questo studio sono rivelate caratteristiche specifiche e invarianti alla lingua della percezione del discorso utilizzando un paradigma cross-linguistico.

È affascinante che i ricercatori abbiano dimostrato come le rappresentazioni del discorso acquisite nelle DNN all’avanguardia ricalchino da vicino gli elementi chiave del sistema uditivo umano nel processo informativo. Nella previsione delle risposte neuronali al discorso reale lungo il percorso uditivo, le rappresentazioni delle caratteristiche della rete neurale convoluzionale profonda (DNN) si comportano in modo notevolmente migliore rispetto ai set di caratteristiche acustico-fonetiche basati sulla teoria. Inoltre, sono stati esaminati i calcoli contestuali fondamentali nelle reti neurali profonde (DNN). È stato scoperto che l’addestramento completamente non supervisionato al discorso naturale è il modo in cui queste reti acquisiscono strutture temporali cruciali legate al linguaggio, come i contesti dei fonemi e delle sillabe. Questa capacità di acquisire informazioni linguistiche specifiche della lingua predice la correlazione di codifica DNN-neurale nella corteccia uditiva non primaria. Mentre i modelli lineari STRF non possono rivelare la codifica specifica della lingua nello STG durante la percezione tra lingue diverse, i modelli di codifica neurale basati sul deep learning possono farlo.

In sintesi,

Utilizzando una metodologia comparativa, i ricercatori dimostrano significative somiglianze rappresentazionali e computazionali tra le reti neurali profonde (DNN) di apprendimento del discorso e il sistema uditivo umano. Da un punto di vista neuroscientifico, i modelli di codifica basati su caratteristiche classiche sono superati dai modelli computazionali basati sui dati nell’estrazione delle caratteristiche del discorso intermedio dalle strutture statistiche. Confrontandoli con le risposte e la selettività neurali, essi offrono un modo per comprendere le rappresentazioni “black box” delle DNN dal punto di vista dell’intelligenza artificiale. Dimostrano come le DNN contemporanee potrebbero aver adottato rappresentazioni simili a come il sistema uditivo umano elabora le informazioni. Secondo i ricercatori, studi futuri potrebbero indagare e convalidare questi risultati utilizzando una più ampia gamma di modelli di intelligenza artificiale e popolazioni più vaste e diverse.

L’articolo Decifrare l’Elaborazione Uditiva: Come i Modelli di Deep Learning Riflettono il Riconoscimento del Discorso Umano nel Cervello è apparso per primo su MarkTechPost.