Ricercatori di Microsoft e Georgia Tech presentano TongueTap Riconoscimento dei gesti multimodali della lingua con dispositivi indossabili sulla testa

Ricercatori di Microsoft e Georgia Tech presentano TongueTap Il riconoscimento dei gesti multimodali della lingua con dispositivi indossabili sulla testa

La ricerca della interazione fluida e senza l’uso delle mani nel campo in rapido sviluppo della tecnologia indossabile ha portato a scoperte rivoluzionarie. TongueTap, una tecnologia che sincronizza più flussi di dati per consentire il riconoscimento dei gesti della lingua per il controllo dei dispositivi indossati sulla testa, è uno sviluppo promettente. Questo metodo consente agli utenti di interagire in silenzio, senza usare le mani o gli occhi, e senza necessità di interfacce appositamente realizzate che sono di solito posizionate all’interno o vicino alla bocca.

In collaborazione con Microsoft Research, Redmond, Washington, USA, i ricercatori dell’Istituto di tecnologia della Georgia hanno creato un’interfaccia gestuale con la lingua (TongueTap) combinando sensori in due auricolari commerciali. Entrambi gli auricolari contenevano sensori IMU e fotopletismografia (PPG). Uno degli auricolari include anche sensori EEG (elettroencefalografia), eye tracking e head tracking. I dati provenienti dai due auricolari, Muse 2 e Reverb G2 OE, sono stati sincronizzati utilizzando il Lab Streaming Layer (LSL), un sistema per la sincronizzazione temporale comunemente utilizzato per le interfacce cerebro-computer multimodali.

Il team ha pre-elaborato il flusso dati utilizzando un filtro passa basso a 128Hz con SciPy e l’Analisi dei Componenti Indipendenti (ICA) sui segnali EEG, applicando inoltre l’Analisi delle Componenti Principali (PCA) agli altri sensori, ciascun sensore separatamente dagli altri. Per il riconoscimento dei gesti, hanno utilizzato una Support Vector Machine (SVM) in Scikit-Learn utilizzando un kernel a funzione di base radiale (RBF) con iperparametri C=100 e gamma=1 per effettuare la classificazione binaria e determinare se una finestra di dati in movimento conteneva un gesto oppure no.

Hanno raccolto un ampio dataset per valutare il riconoscimento dei gesti della lingua con l’aiuto di 16 partecipanti. Il risultato più interessante dello studio riguardava i sensori più efficaci nel classificare i gesti della lingua. L’IMU del Muse è stato il sensore più efficace, raggiungendo l’80% da solo. Le combinazioni multimodali, incluse l’IMU del Muse, sono risultate ancora più efficienti, con una varietà di sensori PPG che raggiungevano una precisione del 94%.

Sulla base dei sensori con la migliore precisione, è stato osservato che l’IMU dietro l’orecchio rappresenta un metodo a basso costo per rilevare i gesti della lingua con una posizione che consente di combinarlo con approcci passati di rilevazione della bocca. Un altro passo fondamentale per rendere i gesti della lingua utilizzabili per i prodotti è un modello di classificazione affidabile e indipendente dall’utente. È necessario un disegno di studio più ecologicamente valido con sessioni multiple e mobilità tra diversi ambienti affinché i gesti possano tradursi in ambienti più realistici.

Un grande passo avanti verso una interazione fluida e intuitiva con i dispositivi indossabili è rappresentato da TongueTap. La sua capacità di identificare e categorizzare i gesti della lingua utilizzando tecnologie disponibili commercialmente apre la strada a un momento in cui il controllo discreto, preciso e facile da usare dei dispositivi indossati sulla testa diventa concepibile. L’applicazione più promettente per le interazioni con la lingua è il controllo delle interfacce di realtà aumentata. I ricercatori hanno intenzione di approfondire ulteriormente questa interazione multiorgano sperimentando il suo utilizzo negli auricolari per la realtà aumentata e confrontandolo con altre interazioni basate sullo sguardo.