Come le Ponti Schrodinger superano i modelli di diffusione nella sintesi di Text-To-Speech (TTS)?

Come i modelli di diffusione delle Ponti Schrödinger superano la sintesi di Text-To-Speech (TTS)?

Con il crescente numero di progressi nell’Intelligenza Artificiale, i campi dell’Elaborazione del Linguaggio Naturale, Generazione del Linguaggio Naturale e Visione Artificiale hanno recentemente guadagnato grande popolarità, tutto grazie all’introduzione dei Large Language Models (LLM). I modelli di diffusione, che si sono dimostrati efficaci nella produzione della sintesi testo-voce (TTS), hanno mostrato una grande qualità di generazione. Tuttavia, la loro distribuzione precedente è limitata a una rappresentazione che introduce rumore e offre poche informazioni sull’obiettivo desiderato della generazione.

In una recente ricerca, un team di ricercatori dell’Università di Tsinghua e Microsoft Research Asia ha introdotto un nuovo sistema di sintesi testo-voce chiamato Bridge-TTS. È il primo tentativo di sostituire un’alternativa pulita e prevedibile per la precedente distribuzione gaussiana rumorosa utilizzata nei ben consolidati approcci TTS basati sulla diffusione. Questa distribuzione sostitutiva fornisce forti informazioni strutturali sull’obiettivo e viene prelevata dalla rappresentazione latente estratta dall’input di testo.

Il team ha condiviso che il contributo principale è lo sviluppo di un ponte di Schrodinger completamente gestibile che collega il mel-spettrogramma e la distribuzione pulita precedente. Il suggerito Bridge-TTS utilizza un processo dati-dati, che migliora il contenuto informativo della distribuzione precedente, a differenza dei modelli di diffusione che funzionano attraverso un processo dati-rumore.

Il team ha valutato l’approccio e, in seguito alla valutazione, l’efficacia del metodo suggerito è stata evidenziata dalla validazione sperimentale condotta sul dataset LJ-Speech. Nelle impostazioni di sintesi a 50 passaggi/1000 passaggi, Bridge-TTS ha dimostrato una migliore performance rispetto al suo equivalente di diffusione, Grad-TTS. Ha persino ottenuto migliori risultati in scenari a pochi passaggi rispetto a modelli TTS solidi e veloci. Le principali forze dell’approccio Bridge-TTS sono state enfatizzate come la qualità di sintesi e l’efficienza del campionamento.

Il team ha riassunto i principali contributi come segue.

  1. Sono stati prodotti mel-spettrogrammi da una rappresentazione latente del testo non contaminato. A differenza della tradizionale procedura dati-rumore, questa rappresentazione, che funziona come informazione di condizione nel contesto dei modelli di diffusione, è stata creata per essere priva di rumore. Il ponte di Schrodinger è stato utilizzato per investigare un processo dati-dati.
  1. Per i dati accoppiati, è stato proposto un ponte di Schrodinger completamente tracciabile. Questo ponte utilizza un’equazione differenziale stocastica (SDE) di riferimento in una forma flessibile. Questo metodo consente l’indagine empirica degli spazi di progettazione oltre a offrire una spiegazione teorica.
  1. È stato studiato come la tecnica di campionamento, la parametrizzazione del modello e la pianificazione del rumore contribuiscono alla qualità del TTS migliorata. È stata implementata anche una pianificazione del rumore asimmetrica, la predizione dei dati e campionatori di ponte di primo ordine.
  1. Una spiegazione teorica completa dei processi sottostanti è stata resa possibile dal ponte di Schrodinger completamente tracciabile. Sono state effettuate indagini empiriche per comprendere come diversi elementi influenzano la qualità del TTS, tra cui l’esame degli effetti delle pianificazioni del rumore asimmetriche, delle decisioni sulla parametrizzazione del modello e dell’efficienza del processo di campionamento.
  1. Il metodo ha prodotto ottimi risultati in termini di velocità di inferenza e qualità di generazione. Il metodo ha superato ampiamente l’equivalente basato sulla diffusione Grad-TTS sia nella generazione a 1000 passaggi che a 50 passaggi. Ha anche superato FastGrad-TTS nella generazione a 4 passaggi, il modello basato sul trasformatore FastSpeech 2 e l’approccio di distillazione di ultima generazione CoMoSpeech nella generazione a 2 passaggi.
  1. Il metodo ha ottenuto risultati eccezionali dopo una sola sessione di allenamento. Questa efficienza è visibile in diverse fasi del processo di creazione, dimostrando l’affidabilità e la potenza del metodo suggerito.