Questa ricerca sull’Intelligenza Artificiale propone un metodo di sintesi vocale personalizzato Zero-Shot Lip2Speech un modello di sintesi vocale sintetico per abbinare i movimenti delle labbra.

This AI research proposes a personalized Zero-Shot Lip2Speech method for synthetic speech synthesis that matches lip movements.

Un team di ricercatori dell’Università di Scienza e Tecnologia della Cina ha sviluppato un nuovo modello di machine learning per la sintesi labbro-voce (Lip2Speech). Il modello è in grado di generare una sintesi vocale personalizzata in condizioni di zero-shot, il che significa che può fare previsioni relative a classi di dati che non ha incontrato durante l’addestramento. I ricercatori hanno introdotto il loro approccio sfruttando un variational autoencoder – un modello generativo basato su reti neurali che codifica e decodifica i dati.

La sintesi Lip2Speech prevede la previsione delle parole pronunciate in base ai movimenti delle labbra di una persona ed ha diverse applicazioni reali. Ad esempio, può aiutare i pazienti che non possono produrre suoni vocali a comunicare con gli altri, aggiungere suono ai film muti, ripristinare il parlato in video rumorosi o danneggiati e persino determinare conversazioni in sequenze video senza audio. Sebbene alcuni modelli di machine learning abbiano dimostrato promesse nelle applicazioni Lip2Speech, spesso hanno difficoltà con la performance in tempo reale e non sono addestrati utilizzando approcci di apprendimento zero-shot.

Di solito, per raggiungere la sintesi Lip2Speech zero-shot, i modelli di machine learning richiedono registrazioni video affidabili degli speaker per estrarre informazioni aggiuntive sui loro schemi di parlato. Tuttavia, nei casi in cui sono disponibili solo video silenziosi o incomprensibili del volto di uno speaker, queste informazioni non possono essere accessibili. Il modello dei ricercatori mira a superare questa limitazione generando un parlato che corrisponde all’aspetto e all’identità di uno speaker specifico senza fare affidamento su registrazioni del suo parlato effettivo.

Il team ha proposto un metodo di sintesi Lip2Speech personalizzato zero-shot che utilizza immagini del volto per controllare le identità degli speaker. Hanno impiegato un variational autoencoder per separare le rappresentazioni di identità dello speaker e contenuto linguistico, consentendo agli embedding dello speaker di controllare le caratteristiche vocali del parlato sintetico per speaker non visti. Inoltre, hanno introdotto l’apprendimento di rappresentazione cross-modale associata per migliorare la capacità degli embedding degli speaker basati sul volto (FSE) nel controllo vocale.

Per valutare le prestazioni del loro modello, i ricercatori hanno condotto una serie di test. I risultati sono stati notevoli, poiché il modello ha generato un parlato sintetico che corrispondeva accuratamente ai movimenti delle labbra di uno speaker e alla sua età, genere e aspetto generale. Le potenziali applicazioni di questo modello sono estese, che vanno da strumenti di assistenza per persone con disturbi del linguaggio, a software di editing video e aiuto per le indagini della polizia. I ricercatori hanno evidenziato l’efficacia del loro metodo proposto attraverso estesi esperimenti, dimostrando che le enunciazioni sintetiche erano più naturali e allineate alla personalità del video di input rispetto ad altri metodi. Inoltre, questo lavoro rappresenta il primo tentativo di sintesi Lip2Speech personalizzata zero-shot utilizzando un’immagine del volto anziché un audio di riferimento per controllare le caratteristiche vocali.

In conclusione, i ricercatori hanno sviluppato un modello di machine learning per la sintesi Lip2Speech che eccelle in condizioni di zero-shot. Il modello può generare una sintesi vocale personalizzata che si allinea con l’aspetto e l’identità di uno speaker sfruttando un variational autoencoder e immagini del volto. Le prestazioni di successo di questo modello aprono possibilità per varie applicazioni pratiche, come l’aiuto per le persone con disturbi del linguaggio, il miglioramento degli strumenti di editing video e l’assistenza nelle indagini della polizia.

Consulta il paper e l’articolo di riferimento. Non dimenticare di unirti al nostro SubReddit di ML con oltre 24k membri, al canale Discord e alla Newsletter via email, dove condividiamo le ultime notizie sulla ricerca in AI, interessanti progetti AI e molto altro. Se hai domande sull’articolo qui sopra o se abbiamo trascurato qualcosa, non esitare a contattarci via email all’indirizzo [email protected]

Dai un’occhiata a centinaia di strumenti AI nel club degli strumenti AI

Articolo originale pubblicato su MarkTechPost.