Meta AI rompe le barriere con Voicebox un modello di IA generativa senza precedenti che rivoluziona il campo della sintesi del parlato.

Voicebox è un modello di IA generativa senza precedenti che rivoluziona la sintesi del parlato.

I ricercatori Meta-AI hanno recentemente ottenuto un significativo avanzamento nell’AI generativa per la voce. Hanno sviluppato Voicebox, un modello innovativo di AI che mostra prestazioni all’avanguardia e la capacità di generalizzare per compiti di generazione della voce senza un addestramento specifico.

A differenza dei modelli di generazione della voce precedenti, Voicebox utilizza un approccio innovativo chiamato Flow Matching, che supera i modelli di diffusione in termini di performance. Voicebox ha dimostrato di superare i modelli esistenti sia in termini di intelligibilità che di somiglianza audio, mentre è anche fino a 20 volte più veloce. Inoltre, può sintetizzare la voce in sei lingue e svolgere la rimozione del rumore, l’editing del contenuto, la conversione dello stile e la generazione di campioni diversi.

Tradizionalmente, l’AI generativa per la voce richiedeva un attento addestramento per ogni compito specifico utilizzando dati accuratamente selezionati. Tuttavia, Voicebox supera questa barriera imparando dall’audio grezzo e dalla sua trascrizione correlata. Questo avanzamento consente al modello di modificare qualsiasi parte di un determinato campione anziché limitarsi a cambiare solo la fine di un clip audio.

I ricercatori hanno addestrato Voicebox utilizzando oltre 50.000 ore di discorsi registrati e trascrizioni di audiolibri di dominio pubblico in inglese, francese, spagnolo, tedesco, polacco e portoghese. Il modello è stato addestrato per prevedere segmenti di discorso basati sul discorso circostante e le relative trascrizioni. Imparando a riempire il discorso dal contesto, Voicebox può generare porzioni di discorso nel mezzo di una registrazione audio senza ricreare l’intero input.

La versatilità di Voicebox gli consente di eccellere in vari compiti di generazione della voce. Può eseguire la sintesi del testo in contesto alla voce, il trasferimento dello stile tra lingue diverse, la denoising e l’editing della voce e il campionamento della voce diverso. Ad esempio, con un campione audio di due secondi, Voicebox può abbinare lo stile audio e usarlo per la generazione del testo in voce. Questa capacità ha potenziali applicazioni nell’aiutare le persone impossibilitate a parlare o nella personalizzazione delle voci per assistenti virtuali e personaggi non giocanti.

Un’altra caratteristica impressionante di Voicebox è la sua capacità di eseguire il trasferimento dello stile tra lingue diverse. Data una porzione di discorso e un passaggio di testo in una delle lingue supportate, Voicebox può generare una lettura del testo nella lingua corrispondente. Questo avanzamento potrebbe facilitare la comunicazione naturale e autentica tra individui che parlano lingue diverse.

Inoltre, l’apprendimento in contesto di Voicebox lo rende competente nell’editing senza soluzione di continuità dei segmenti all’interno delle registrazioni audio. Può risintetizzare i segmenti di discorso corrotti da rumore di breve durata o sostituire le parole pronunciate male senza registrare nuovamente l’intero discorso. Questa capacità semplifica il processo di pulizia e di editing audio, potenzialmente rivoluzionando gli strumenti di editing audio.

Inoltre, l’addestramento di Voicebox su dati reali e diversi gli consente di generare voce che rappresenta meglio come le persone parlano naturalmente in lingue diverse. Questa capacità potrebbe essere impiegata per generare dati sintetici per l’addestramento dei modelli di assistenti vocali. Notabilmente, i modelli di riconoscimento della voce addestrati su una voce sintetica generata da Voicebox raggiungono una parità con i modelli addestrati su una voce reale, con una minima degradazione dell’accuratezza.

Mentre i ricercatori riconoscono l’importanza dell’apertura e della condivisione della ricerca con la comunità dell’AI, stanno trattenendo l’accesso pubblico al modello e al codice di Voicebox a causa dei potenziali rischi di abuso. Nel loro articolo di ricerca, delineano lo sviluppo di un classificatore altamente efficace per distinguere tra un discorso autentico e un’audio generato con Voicebox, mirando a mitigare possibili rischi futuri.

Voicebox rappresenta un significativo avanzamento nell’AI generativa per la voce, offrendo un modello versatile ed efficiente che mostra la capacità di generalizzazione delle attività. Con il potenziale per numerose applicazioni, Voicebox apre nuove possibilità per la sintesi della voce, la comunicazione tra lingue diverse, la modifica audio e l’addestramento dei modelli di riconoscimento della voce. Con la comunità di ricerca che si basa su questo avanzamento, il campo dell’AI generativa per la voce è pronto per eccitanti avanzamenti e scoperte.