Incontra AudioLDM 2 un framework AI unico per la generazione audio che combina discorso, musica ed effetti sonori

Incontra AudioLDM 2, un framework AI unico per generare audio con discorso, musica ed effetti sonori.

In un mondo sempre più dipendente dai concetti di Intelligenza Artificiale e Deep Learning, il campo della generazione audio sta vivendo una trasformazione rivoluzionaria con l’introduzione di AudioLDM 2. Questo innovativo framework ha aperto la strada a un metodo integrato di sintesi audio, rivoluzionando il modo in cui produciamo e percepiamo il suono in una varietà di contesti, tra cui il discorso, la musica e gli effetti sonori. La generazione audio consiste nella produzione di informazioni audio in base a particolari variabili, come il testo, i fonemi o le immagini. Questo include diverse sottodiscipline, tra cui voce, musica, effetti sonori e suoni particolari come il violino o il rumore dei passi.

Ogni sottodisciplina presenta le proprie sfide e i lavori precedenti hanno spesso utilizzato modelli specializzati su misura per queste sfide. Nei modelli specializzati sono presenti dei pregiudizi induttivi, che sono limitazioni predefinite che guidano il processo di apprendimento verso la risoluzione di un determinato problema. Queste limitazioni impediscono l’utilizzo della generazione audio in situazioni complesse in cui coesistono molte forme di suoni, come le sequenze filmiche, nonostante i grandi progressi compiuti nei modelli specializzati. È necessaria una strategia unificata che possa fornire una varietà di segnali audio.

Per affrontare questi problemi, un team di ricercatori ha introdotto AudioLDM 2, un framework unico con condizioni regolabili che tenta di generare qualsiasi tipo di audio senza affidarsi a pregiudizi specifici del dominio. Il team ha introdotto il “linguaggio audio” (LOA), che è una sequenza di vettori che rappresentano le informazioni semantiche di un clip audio. Questo LOA consente la conversione delle informazioni comprensibili dagli esseri umani in un formato adatto per la produzione di audio dipendente dal LOA, catturando sia le caratteristiche uditive dettagliate che le informazioni semantiche di alto livello.

Il team ha suggerito di basarsi su un Autoencoder Audio Mask (AudioMAE) pre-addestrato su una varietà di fonti audio. Il framework di pre-addestramento produce la rappresentazione audio ottimale per compiti generativi, compresi attività di ricostruzione e generazione. Successivamente, le informazioni di condizionamento come testo, audio e grafica vengono convertite nella caratteristica AudioMAE utilizzando un modello di linguaggio basato su GPT. In base alla caratteristica AudioMAE, l’audio viene sintetizzato utilizzando un modello di diffusione latente, che può essere ottimizzato in modo auto-supervisionato, consentendo il pre-addestramento su dati audio non etichettati. Mentre si affrontano le difficoltà con i costi di calcolo e l’accumulo di errori presenti nei modelli audio precedenti, la tecnica di modellazione del linguaggio sfrutta gli sviluppi recenti nei modelli di linguaggio.

Al termine della valutazione, gli esperimenti hanno dimostrato che AudioLDM 2 si posiziona all’avanguardia nei compiti che richiedono la produzione di testo-audio e testo-musica. Supera modelli di riferimento potenti nei compiti che richiedono la generazione di testo-in-voce e, per attività come la produzione di immagini a suoni, il framework può includere ulteriori criteri per la modalità visiva. Sono state anche studiate caratteristiche accessorie come l’apprendimento in contesto per audio, musica e voce. In confronto, AudioLDM 2 supera AudioLDM in termini di qualità, adattabilità e produzione di discorsi comprensibili.

Le principali contribuzioni sono state riassunte dal team nel seguente modo.

  1. È stato introdotto un modello innovativo e adattabile per la generazione audio, capace di generare audio, musica e discorsi comprensibili con condizioni.
  1. L’approccio si basa su una rappresentazione audio universale, che consente un ampio pre-addestramento auto-supervisionato del modello di diffusione latente principale senza la necessità di dati audio annotati. Questa integrazione combina i punti di forza dei modelli auto-regressivi e di diffusione latente.
  1. Attraverso gli esperimenti, AudioLDM 2 è stato convalidato raggiungendo prestazioni all’avanguardia nella generazione di testo-audio e testo-musica. Ha ottenuto risultati competitivi nella generazione di testo-in-voce paragonabili ai migliori metodi attuali.