I ricercatori di Microsoft svelano PromptTTS 2 rivoluzionando il Text-to-Speech con una maggiore variabilità della voce e una generazione di prompt a basso costo.

I ricercatori di Microsoft rivoluzionano il Text-to-Speech con PromptTTS 2, offrendo una voce più variabile e prompt a basso costo.

L’intelligibilità e la naturalezza della sintesi della voce sono migliorate grazie agli sviluppi recenti nei sistemi di text-to-speech. Sono stati creati sistemi di TTS su larga scala per impostazioni multi-speaker e alcuni sistemi di TTS hanno raggiunto una qualità equivalente alle registrazioni di un singolo speaker. Nonostante questi progressi, la modellazione della variabilità della voce è ancora difficile poiché diverse modalità di pronuncia della stessa frase possono comunicare informazioni aggiuntive, come emozione e tono. Le tecniche tradizionali di TTS spesso si basano sull’informazione dello speaker o su prompt vocali per simulare la variabilità della voce. Tuttavia, queste tecniche non sono user-friendly perché l’ID dello speaker è predefinito e il prompt vocale appropriato è difficile da scoprire o non esiste.

Un approccio più promettente per la modellazione della variabilità della voce è utilizzare prompt di testo che specificano le caratteristiche vocali poiché il linguaggio naturale è un’interfaccia comoda per gli utenti per esprimere la loro intenzione sulla produzione della voce. Questa strategia semplifica la creazione di voci utilizzando prompt di testo. I sistemi di TTS basati su prompt di testo sono tipicamente addestrati utilizzando un dataset di discorsi e il prompt di testo corrispondente ad esso. Il prompt di testo che descrive la variabilità o lo stile della voce viene utilizzato per condizionare il modo in cui il modello genera la voce.

I sistemi di TTS basati su prompt di testo continuano a affrontare due difficoltà principali:

Sfida One-to-Many: Poiché la qualità della voce varia da persona a persona, è difficile per le istruzioni scritte rappresentare accuratamente tutti gli aspetti del discorso. Diversi campioni vocali possono inevitabilmente correlarsi allo stesso prompt. Il fenomeno one-to-many rende l’addestramento del modello di TTS più impegnativo e può portare al sovradimensionamento o al collasso della modalità. Per quanto ne sappiano, non sono stati creati procedure appositamente per affrontare il problema one-to-many nei sistemi di TTS basati su prompt di testo.

Sfida Data-Scale: Poiché i prompt di testo sono rari su Internet, compilare un dataset di prompt di testo che definiscono la voce non è facile.

Di conseguenza, vengono assunti fornitori per creare prompt, il che è sia costoso che richiede tempo. I dataset di prompt sono tipicamente piccoli o privati, rendendo difficile fare ulteriori ricerche sui sistemi di TTS basati su prompt. Nel loro lavoro, forniscono PromptTTS 2, che propone una rete di variazione per modellare le informazioni di variabilità della voce del discorso non catturate dai prompt. Utilizza il grande modello di linguaggio per produrre prompt di alta qualità per superare le sfide sopra descritte. Suggeriscono una rete di variazione per anticipare le informazioni mancanti sulla variabilità della voce dal prompt di testo per la sfida one-to-many. Il discorso di riferimento, ritenuto includere tutte le informazioni sulla variabilità della voce, viene utilizzato per addestrare la rete di variazione.

Un encoder di prompt di testo per i prompt di testo, un encoder di discorso di riferimento per il discorso di riferimento e un modulo di TTS per sintetizzare il discorso basato sulle rappresentazioni recuperate dall’encoder di prompt di testo e dall’encoder di discorso di riferimento compongono il modello di TTS in PromptTTS 2. Sulla base della rappresentazione immediata dall’encoder di prompt di testo 3, viene addestrata una rete di variazione per prevedere la rappresentazione di riferimento dall’encoder di voce di riferimento. Possono modificare le caratteristiche del discorso sintetizzato utilizzando il modello di diffusione nella rete di variazione per selezionare informazioni diverse sulla variabilità della voce da rumore gaussiano condizionato ai prompt di testo, dando agli utenti maggiore libertà nella produzione di voci.

Ricercatori di Microsoft suggeriscono un flusso di lavoro per creare automaticamente prompt di testo per il discorso utilizzando un modello di comprensione del discorso per riconoscere le caratteristiche vocali dal discorso e un grande modello di linguaggio per costruire prompt di testo in base ai risultati del riconoscimento per affrontare la difficoltà della scala dei dati. In particolare, utilizzano un modello di comprensione del discorso per identificare i valori degli attributi per ogni campione di discorso all’interno di un dataset di discorsi per descrivere la voce da varie caratteristiche. Il prompt di testo viene quindi creato mettendo insieme queste frasi, con la descrizione di ciascun attributo data nella sua frase. A differenza di studi precedenti, che si basavano su fornitori per costruire e combinare frasi, PromptTTS 2 utilizza modelli di linguaggio massivi che hanno dimostrato di essere in grado di svolgere una serie di compiti a un livello paragonabile a quello di una persona.

Forniscono istruzioni LLM per scrivere ottimi prompt che includono le caratteristiche e collegano le frasi in un prompt completo. Grazie a questo flusso di lavoro completamente automatico, non è più necessario l’intervento umano nella creazione dei prompt. Di seguito è riassunto il contributo di questo articolo:

• Per risolvere il problema one-to-many nei sistemi di TTS basati su prompt di testo, costruiscono una rete di variazione basata su un modello di diffusione per descrivere la variabilità della voce non coperta dal prompt di testo. La variabilità della voce può essere gestita selezionando campioni da vari rumori gaussiani condizionati al prompt di testo durante l’inferenza.

• Costruiscono e pubblicano un dataset di prompt di testo prodotto da un flusso di lavoro per la creazione di prompt di testo e un grande modello di linguaggio. Il flusso di lavoro riduce la dipendenza dai fornitori producendo prompt di alta qualità.

• Utilizzando 44.000 ore di dati vocali, hanno testato PromptTTS 2 su un dataset di parole parlate di dimensioni considerevoli. Secondo i risultati sperimentali, PromptTTS 2 supera studi precedenti nella produzione di voci che corrispondono più da vicino alla frase di testo, supportando nel contempo la limitazione della variabilità vocale campionando dal rumore gaussiano.