Decodifica del linguaggio parlato

Decodifica linguaggio parlato

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_print { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_print:hover { background:url(‘/images/icons/print.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.mobile-apps { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #FFF; background-size: 10px; } .fav_bar a.mobile-apps:hover { background:url(‘/images/icons/generic.gif’) no-repeat 13px 7px #e6e9ea; background-size: 10px} .fav_bar a.fav_de { background: url(/images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(/images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘/images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘/images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

L'attività cerebrale può essere captata impiantando chirurgicamente un dispositivo nelle aree del cervello legate al linguaggio o utilizzando sistemi non invasivi come gli elettroencefalogrammi. ¶ Credit: A Health Blog

Invece di parlare con assistenti vocali digitali come Alexa e Siri, presto potremmo interagire con i nostri dispositivi semplicemente pensando a ciò che vogliamo dir loro. Per rendere ciò possibile, i ricercatori stanno cercando di decodificare l’attività cerebrale legata al linguaggio sfruttando gli avanzamenti nelle interfacce cervello-computer (BCI) – sistemi che catturano i segnali cerebrali, li analizzano e li traducono in comandi – e nell’intelligenza artificiale (AI).

“[Se progressi nei prossimi anni], sono abbastanza sicuro che possiamo guidare queste soluzioni verso applicazioni reali”, afferma Maurice Rekrut, ricercatore e responsabile del Cognitive Assistants BCI-Lab presso il Centro di Ricerca tedesco sull’Intelligenza Artificiale (DFKI) a Kaiserslautern, in Germania.

Le BCI di decodifica del linguaggio sono anche di particolare interesse per aiutare le persone con determinate condizioni a comunicare. Le cellule nervose che inviano messaggi ai muscoli coinvolti nel linguaggio possono essere danneggiate a causa di malattie come la malattia del motoneurone (MND) e la sclerosi laterale amiotrofica (SLA), ad esempio, compromettendo la capacità di parlare di una persona. I pazienti spesso utilizzano sistemi di controllo dello sguardo combinati con testo predittivo per digitare ciò che vogliono comunicare, ma questo può essere un processo lento e frustrante. “L’importante è cercare di restituire alle persone non solo la naturalezza del linguaggio, ma anche la fluidità e la rapidità del linguaggio”, afferma Scott Wellington, assistente di ricerca del progetto dSPEECH presso l’Università di Bath nel Regno Unito. “Questo è ciò che possiamo fare con le BCI”.

L’attività cerebrale può essere registrata impiantando chirurgicamente un dispositivo nelle aree del cervello correlate al linguaggio, oppure utilizzando sistemi non invasivi come l’elettroencefalografia, che rileva segnali elettrici nelle stesse aree cerebrali attraverso sensori posizionati sul cuoio capelluto (i test che vengono eseguiti sono noti come elettroencefalogrammi o EEG). Tuttavia, ci sono molte sfide da affrontare prima che i segnali del linguaggio possano essere catturati in modo efficace.

Ad esempio, gli impianti attualmente sono più promettenti in quanto possono essere posizionati direttamente nelle aree del cervello che elaborano il linguaggio, con conseguenti segnali ad alta risoluzione. Tuttavia, i dispositivi esistenti non possono essere rimossi senza danneggiare il cervello.

Molti ricercatori stanno anche sperimentando con gli EEG, ma i segnali sono fortemente attenuati quando raggiungono il cuoio capelluto.

“Dobbiamo trovare dei modi molto intelligenti per elaborare il segnale e scomporlo in un insieme di caratteristiche statistiche di interesse”, dice Wellington.

Nel recente lavoro, Wellington e i suoi colleghi hanno studiato le capacità di decodifica del linguaggio di dispositivi EEG commercialmente disponibili utilizzando dati sulle onde cerebrali. Il loro obiettivo era stabilire se potevano raggiungere accurati di decodifica simili a quelli dei dispositivi EEG di ricerca incorporando tecniche di machine learning e di elaborazione del segnale più sofisticate.

Per il loro esperimento, si sono concentrati su 16 fonemi inglesi, unità distinte di suono come p, b, d e t. Ventuno partecipanti hanno indossato i dispositivi EEG di serie mentre ascoltavano i fonemi, li immaginavano e li pronunciavano ad alta voce. L’attività cerebrale rilevata dai sensori EEG è stata registrata in ogni caso.

Utilizzando i dati, i ricercatori hanno quindi addestrato un modello classico di machine learning e un modello CNN di deep learning più complesso per decodificare diverse classi di fonemi. Sono rimasti sorpresi nel constatare che il modello tradizionale ha ottenuto risultati migliori. “Volta dopo volta, le persone che fanno ricerca sulla decodifica del linguaggio nel cervello scoprono che i modelli classici di machine learning tendono ancora a funzionare ragionevolmente bene, anche in confronto ai modelli di deep learning”, dice Wellington. Il suo team non è certo del motivo, ma sospettano che sia perché i modelli di deep learning richiedono tipicamente grandi quantità di dati per essere efficaci.

Il modello classico di machine learning, tuttavia, è stato in grado di distinguere abbastanza bene tra certi fonemi, ma è lontano dal decifrare discorsi comprensibili. Wellington afferma che le sue prestazioni potrebbero essere significativamente migliorate incorporando un ampio modello di linguaggio come il GPT-3 di Open AI, che è ormai pratica comune nel campo. Questi modelli considerano la probabilità di parole potenziali a seconda del contesto. “Date le regole della lingua inglese e le statistiche sulla distribuzione di tutti i fonemi inglesi, [un ampio modello di linguaggio] può affermare con una grande [misura di] fiducia che la parola che stai cercando di dire è probabilmente ‘casa’, ad esempio”, afferma Wellington.

Un altro problema è che i sistemi di decodifica del linguaggio spesso si concentrano sui segnali provenienti dalle cellule nervose coinvolte nel movimento degli articolatori che producono il linguaggio, che sono inibiti nelle persone con danni nervosi causati da condizioni come la SLA e l’ALS. Tuttavia, negli individui sani, questi segnali conducono a un linguaggio effettivo e sarebbero quindi adatti solo a alcune persone che hanno perso questa capacità. “Ricerche all’avanguardia sulla decodifica del linguaggio tentato hanno mostrato anche che per le persone con perdita del linguaggio naturale, cercare di parlare può in effetti essere un compito sempre più esauriente da eseguire per periodi prolungati”, afferma Wellington.

Invece, decodificare il linguaggio immaginato, il contenuto del nostro monologo interiore o della nostra voce di lettura, potrebbe portare a un sistema che chiunque potrebbe utilizzare e che richiederebbe meno sforzo. La decodifica del linguaggio immaginato può però essere una sfida per diverse ragioni. I modelli di attività cerebrale possono variare notevolmente, ad esempio, poiché le persone spesso pensano al linguaggio in modi diversi: alcune persone potrebbero immaginarsi di pronunciare una parola, mentre altre formano un’immagine mentale del movimento dei muscoli durante il parlare, con conseguenti diversi tipi di segnali cerebrali.

Inoltre, l’attività di background che deriva dal nostro stato mentale, come ad esempio se abbiamo dormito bene la notte precedente o meno, può influenzare i segnali registrati. Ciò significa che l’attività cerebrale correlata al linguaggio non è consistente per un singolo individuo. “Riscontrerai problemi nell’applicare un classificatore di machine learning che hai addestrato il primo giorno, quando [un partecipante] era molto eccitato, il secondo giorno, quando era molto stanco”, afferma Rekrut.

In un progetto che inizia a ottobre, Rekrut e i suoi colleghi si propongono di affrontare questo problema conducendo studi sulla decodifica del linguaggio in diverse condizioni, come al mattino e di notte, per un periodo di diverse settimane fino a un anno. Raccogliere una grande quantità di dati, oltre a informazioni dai partecipanti sul loro stato mentale, dovrebbe consentire loro di individuare come vari fattori influenzano l’attività cerebrale e le prestazioni delle interfacce cervello-computer. “Cercheremo di fornire tutti questi dati a un classificatore e vedere se possiamo trovare dei pattern”, afferma Rekrut. “Quando i partecipanti sono stanchi, forse possiamo trovare un certo pattern che possiamo quindi filtrare dall’attività EEG e fornire questa conoscenza alla comunità”.

La decodifica del discorso immaginato è anche più difficile rispetto al discorso tentato poiché i segnali neurali sono più sottili. In un nuovo progetto chiamato dSPEECH, Wellington e i suoi colleghi stanno quindi cercando di decifrarlo con una precisione molto maggiore investigando due diverse modalità che potrebbero alla fine essere combinate: l’elettrocorticografia, un approccio invasivo che prevede l’impianto di elettrodi nel cuoio capelluto per catturare segnali ad alta risoluzione sulla superficie, e sEEG – un metodo che utilizza sonde con sensori per rilevare segnali cerebrali legati al linguaggio profondamente all’interno del cervello.

Tenteranno anche di decodificare i 44 fonemi della lingua inglese con un ragionevole grado di precisione sviluppando una pipeline di elaborazione del segnale e apprendimento automatico. Concentrarsi sui singoli suoni che possono essere combinati dovrebbe aumentare drasticamente il numero di parole che possono essere decifrate. Attualmente, i migliori sistemi possono decodificare circa 300 parole inglesi, il che è insufficiente anche per una comunicazione di base.

Il obiettivo di Wellington è creare un sistema in cui la capacità delle persone di comunicare non sia affatto limitata. Ciò consentirebbe anche di decifrare i nomi, che è una sfida per i sistemi attuali poiché l’attività cerebrale legata a ciascuno dovrebbe essere registrata. Per le persone che non possono parlare, essere in grado di rivolgersi a qualcuno che hanno incontrato per nome è un elemento importante della comunicazione, dice Wellington.

“Con la decodifica a livello di fonema, puoi improvvisamente dire qualsiasi parola tu voglia”, aggiunge. “Sono sicuro che sia la via da seguire.”

Sandrine Ceurstemont è una scrittrice scientifica freelance con sede a Londra, Regno Unito.