I ricercatori di Sony propongono BigVSAN Rivoluzionare la qualità audio con la suddivisione delle reti avversarie in vocoder basati su GAN.

I ricercatori di Sony propongono BigVSAN, una rivoluzione nella qualità audio tramite la suddivisione delle reti avversarie in vocoder basati su GAN.

Lo sviluppo delle reti neurali e la loro crescente popolarità hanno portato a miglioramenti sostanziali nelle tecnologie di sintesi vocale. La maggior parte dei sistemi di sintesi vocale utilizza un metodo a due fasi: prima, prevedono una rappresentazione intermedia dal testo di input, come i mel-spertrogrammi, e poi convertono questa rappresentazione intermedia in waveform audio. L’ultimo passaggio, chiamato vocoder, è essenziale per produrre audio dai mel-spetrogrammi.

Si è fatto molto sforzo per migliorare la qualità della sintesi vocale prodotta dai vocoder. I modelli generativi profondi, come i modelli autoregressivi, i modelli basati su generative adversarial network (GAN), i modelli basati su flussi e i modelli basati su diffusioni, hanno dimostrato di poter produrre waveform di alta qualità. Sebbene questi modelli generativi profondi abbiano bisogno di aiuto per ottenere contemporaneamente una buona qualità del campione, varietà e campionamento rapido, la diversità del vocoder è meno significativa rispetto ai modelli di generazione di immagini. I vocoder sono progettati per produrre audio che corrisponde a un determinato mel-spertrogramma e, poiché le GAN possono generare rapidamente campioni di alta qualità, sono uno strumento potente e utile.

Il potenziale delle generative adversarial networks (GAN) per produrre in modo efficace waveform audio di alta qualità più velocemente del tempo reale ha suscitato grande interesse nel campo dei vocoder. Tuttavia, un problema dei vocoder basati su GAN è che spesso hanno difficoltà a determinare la migliore proiezione dello spazio delle caratteristiche per differenziare tra dati reali e falsi, il che può influire sulla qualità complessiva dell’audio che viene creato.

Per affrontare questi problemi, un team di ricercatori di Sony AI, Tokyo, Giappone, e Sony Group Corporation, Tokyo, Giappone, ha studiato un miglioramento del framework di addestramento GAN chiamato Slicing Adversarial Network (SAN) nel contesto delle attività di generazione di immagini. Con SAN è stato dimostrato che è possibile trovare la proiezione dello spazio delle caratteristiche ottimale per differenziare meglio tra dati autentici e falsi. Il team ha verificato se SAN può migliorare anche l’efficienza dei vocoder basati su GAN. Per fare ciò, hanno proposto un approccio di modifica per least-squares GAN, una variante popolare nelle vocoder. Per SAN, questa tecnica modifica le funzioni di perdita di least-squares GAN.

Il team ha dimostrato attraverso una serie di test che l’implementazione del framework SAN con piccole modifiche può migliorare le prestazioni dei vocoder basati su GAN, incluso il noto modello chiamato BigVGAN. Il loro approccio contribuisce all’aumento della ricerca per migliorare la sintesi delle waveform audio con le GAN. Il team ha chiamato il vocoder BigVSAN, che è stato potenziato da SAN, ovvero il framework di addestramento GAN migliorato, e che ha la capacità di superare il vocoder BigVGAN, attualmente considerato il migliore.

Il team ha riassunto i suoi principali contributi come segue:

  1. Scheme di Monotonizzazione Soft: È stato introdotto un metodo chiamato “monotonizzazione soft” che adatta least-squares GAN per diventare least-squares SAN, migliorando le proiezioni dello spazio delle caratteristiche.
  1. Miglioramento delle prestazioni: Implementando SAN e altre modifiche, il team ha dimostrato che i vocoder basati su GAN, inclusa l’avanzata BigVGAN, possono produrre risultati audio migliori.
  1. Il team ha reso il codice disponibile pubblicamente per garantire la riproducibilità. Ciò consente ad altri ricercatori di replicare gli esperimenti e costruire sul lavoro esistente, promuovendo così la collaborazione e l’avanzamento nella tecnologia di sintesi audio.