Ricercatori dalla Corea del Sud propongono VITS2 una svolta nei modelli di Text-to-Speech in un unico stadio per una maggiore naturalezza ed efficienza.

Ricercatori coreani propongono VITS2, un nuovo modello di Text-to-Speech per una maggiore naturalità ed efficienza.

Il documento introduce VITS2, un modello di sintesi del testo in voce in un’unica fase che sintetizza una voce più naturale migliorando vari aspetti dei modelli precedenti. Il modello affronta problemi come l’unnaturalità intermittente, l’efficienza computazionale e la dipendenza dalla conversione dei fonemi. I metodi proposti migliorano la naturalezza, la similarità delle caratteristiche vocali nei modelli multi-speaker e l’efficienza di allenamento e inferenza.

La forte dipendenza dalla conversione dei fonemi nei lavori precedenti è significativamente ridotta, consentendo un approccio completamente end-to-end in un’unica fase.

Metodi Precedenti:

Sistemi a Due Fasi: Questi sistemi dividevano il processo di generazione delle forme d’onda dai testi di input in due fasi concatenate. La prima fase produceva rappresentazioni vocali intermedie come mel-spettrogrammi o caratteristiche linguistiche dai testi di input. La seconda fase generava quindi forme d’onda grezze basate su quelle rappresentazioni intermedie. Questi sistemi avevano limitazioni come la propagazione degli errori dalla prima alla seconda fase, la dipendenza da caratteristiche definite dall’uomo come il mel-spettrogramma e il calcolo richiesto per generare le caratteristiche intermedie.

Modelli in un’unica fase: Studi recenti hanno attivamente esplorato modelli in un’unica fase che generano direttamente forme d’onda dai testi di input. Questi modelli non solo hanno superato i sistemi a due fasi, ma hanno dimostrato anche la capacità di generare una voce di alta qualità quasi indistinguibile dalla voce umana.

Conditional variational autoencoder con apprendimento avversario per la sintesi del testo in voce end-to-end di J. Kim, J. Kong e J. Son è stato un lavoro precedente significativo nel campo della sintesi del testo in voce in un’unica fase. Questo precedente approccio in un’unica fase ha ottenuto un grande successo ma ha avuto diversi problemi, tra cui l’unnaturalità intermittente, la bassa efficienza del predittore di durata, il formato di input complesso, la scarsa similarità delle caratteristiche vocali nei modelli multi-speaker, l’allenamento lento e la forte dipendenza dalla conversione dei fonemi.

La principale contribuzione del presente documento è affrontare i problemi riscontrati nel precedente modello in un’unica fase, in particolare quelli menzionati nel modello di successo sopra citato, e introdurre miglioramenti per ottenere una migliore qualità e efficienza nella sintesi del testo in voce.

La sintesi del testo in voce basata su reti neurali profonde ha visto progressi significativi. La sfida sta nel convertire il testo discontinuo in forme d’onda continue, garantendo un’audio di voce di alta qualità. Le soluzioni precedenti hanno diviso il processo in due fasi: la produzione di rappresentazioni vocali intermedie dai testi e quindi la generazione di forme d’onda grezze basate su quelle rappresentazioni. I modelli in un’unica fase sono stati studiati attivamente e hanno superato i sistemi a due fasi. Il documento mira ad affrontare i problemi riscontrati nei modelli in un’unica fase precedenti.

Il documento descrive miglioramenti in quattro aree: previsione della durata, variational autoencoder aumentato con flussi di normalizzazione, ricerca di allineamento e codificatore di testo condizionato dal parlante. Viene proposto un predittore di durata stocastico, allenato attraverso l’apprendimento avversario. La ricerca di allineamento monotona (MAS) viene utilizzata per l’allineamento, con modifiche per il miglioramento della qualità. Il modello introduce un blocco transformer nei flussi di normalizzazione per catturare le dipendenze a lungo termine. Un codificatore di testo condizionato dal parlante è progettato per imitare meglio le varie caratteristiche vocali di ogni parlante.

Sono stati condotti esperimenti sui dataset LJ Speech e VCTK. Lo studio ha utilizzato sia sequenze di fonemi che testi normalizzati come input del modello. Le reti sono state addestrate utilizzando l’ottimizzatore AdamW, e l’addestramento è stato condotto su GPU NVIDIA V100. Sono stati condotti test di valutazione della media dell’opinione degli utenti (MOS) per valutare la naturalezza della voce sintetizzata. Il metodo proposto ha mostrato un miglioramento significativo nella qualità della voce sintetizzata rispetto ai modelli precedenti. Sono stati condotti studi di ablazione per verificare la validità dei metodi proposti. Infine, gli autori hanno dimostrato la validità dei loro metodi proposti attraverso esperimenti, valutazione della qualità e misurazione della velocità di calcolo, ma hanno comunicato che nel campo della sintesi della voce esistono ancora vari problemi che devono essere affrontati, e sperano che il loro lavoro possa essere una base per future ricerche.