Preparati per una rivoluzione sonora nell’IA il 2023 è l’anno delle onde sonore generative

Rivoluzione sonora nell'IA nel 2023 con onde sonore generative.

L’anno scorso si è registrato un significativo aumento del lavoro concentrato sulla Visione Artificiale (CV) e l’Elaborazione del Linguaggio Naturale (NLP). A causa di ciò, gli accademici di tutto il mondo stanno esaminando i potenziali benefici che l’apprendimento profondo e i grandi modelli di linguaggio (LLM) potrebbero apportare alla generazione audio. Solo nelle ultime settimane sono stati pubblicati quattro nuovi articoli, ognuno dei quali introduce un modello audio potenzialmente utile che può rendere molto più facile ulteriori ricerche in questo settore.

MusicLM

Il primo modello è MusicLM, sviluppato da ricercatori di Google e IRCAM – Sorbonne Universite. MusicLM è un modello in grado di produrre musica di alta qualità a partire da descrizioni testuali come “una melodia di violino rilassante supportata da un riff di chitarra distorto”. Producente musica a 24 kHz costante per diversi minuti, MusicLM modella la produzione di musica condizionale come un lavoro di modellazione sequenziale gerarchica. MusicLM può essere addestrato sia su testo che su melodia. Ciò consente al modello di regolare l’altezza e il tempo di una melodia fischiettata o canticchiata per adattarla al tenore di un testo sottotitolato. MusicCaps è un dataset pubblicamente disponibile con 5,5k coppie di musica-testo annotate con dettagliate descrizioni generate dall’uomo.

MusicLM è specificamente addestrato su moduli pre-addestrati SoundStream, w2v-BERT e MuLan. Il modello MuLan, simile a CLIP, uno dei tre modelli pre-addestrati, è particolarmente intrigante perché impara a codificare l’audio e il testo accoppiati più vicini tra loro nello spazio di embedding. Come menzionato nel loro articolo “MusicLM: Generare musica da un testo“, con il supporto di MuLan, MusicLM può superare il problema dei dati accoppiati insufficienti e acquisire conoscenze da un grande corpus audio.

SingSong

Un altro studio di Google propone SingSong, un sistema in grado di generare audio di musica strumentale per seguire l’audio vocale di input in sincronia. In altre parole, l’audio strumentale di output può essere combinato in modo ingenuo con le voci di input per creare musica coerente, inclusa l’input. 

SingSong sfrutta gli sviluppi in due importanti aree della tecnologia musicale: la separazione delle fonti e la modellazione audio generativa. Il team ha diviso il massiccio dataset musicale contenente 1 milione di tracce in coppie allineate di voci e sorgenti strumentali utilizzando una tecnica di separazione delle fonti disponibile commercialmente sviluppata in lavori precedenti. Hanno utilizzato questo dato come dati paralleli per il loro lavoro. Quindi hanno riadattato AudioLM per la modellazione generativa condizionale “audio-to-audio” degli strumentali dato un audio vocale addestrandolo supervisionato sui dati separati dalla fonte. AudioLM è un modello audio generativo che coinvolge una gerarchia di rappresentazioni intermedie ed è quindi adatto per la modellazione audio generativa incondizionata.

Nel loro articolo “SingSong: Generare accompagnamenti musicali dal canto“, il team suggerisce due strategie di featurizzazione per le voci di input per migliorare la generalizzazione:

  1. Aggiungere rumore agli input vocali per nascondere artefatti
  2. Utilizzare solo le rappresentazioni intermedie più grezze da AudioLM come input di condizionamento.

Insieme, questi miglioramenti aumentano le prestazioni delle voci isolate del 55% rispetto all’AudioLM di base. Gli strumentali di SingSong sono stati scelti dagli ascoltatori il 66% delle volte rispetto agli strumentali ottenuti con il metodo di recupero di riferimento. Ancora più importante, il 34% delle volte gli ascoltatori hanno preferito gli strumentali di SingSong rispetto alla verità di riferimento.

Moûsai

Uno studio collaborativo di un gruppo di ricercatori presso l’ETH Zurigo e l’Istituto Max Planck per i Sistemi Intelligenti introduce Moûsai, un modello di diffusione a cascata condizionato dal testo che ci consente di costruire musica stereo a 48kHz a lungo contesto basata sul contesto di oltre un minuto e genera una vasta gamma di musica.

Come menzionato nel loro articolo “Moûsai: Generazione di testo in musica con diffusione latente a lungo contesto“, i ricercatori hanno impiegato la diffusione a cascata a due stadi nel modello Moûsai.

  • Il primo stadio utilizza un autoencoder di diffusione innovativo per comprimere la forma d’onda audio di un fattore di 64 mantenendo un livello moderatamente elevato di qualità.
  • Il secondo stadio impara a generare le rappresentazioni latenti ridotte condizionate dall’embedding del testo generato da un modello di linguaggio pre-addestrato.

Hanno utilizzato una versione ottimizzata dell’efficiente U-Net utilizzata in entrambi gli stadi. I loro risultati mostrano che l’inferenza può essere eseguita rapidamente, rendendo il modello praticabile nel mondo reale. Allo stesso modo, l’intero sistema può essere insegnato ed eseguito con risorse minime, come quelle disponibili nella maggior parte dei college, con ogni stadio che richiede circa una settimana di addestramento su una singola GPU A100.

AudioLDM

La University of Surrey, in collaborazione con l’Imperial College London, ha introdotto AudioLDM, un sistema TTA che, utilizzando LDM continui, raggiunge una qualità di generazione all’avanguardia e ha vantaggi di efficienza computazionale e manipolazione audio condizionata dal testo. Il loro lavoro in “AudioLDM: Generazione di testo in audio con modelli di diffusione latente” dimostra che, con l’aiuto di un variational auto-encoder basato sul mel-spettrogramma, AudioLDM può imparare come costruire il prior audio in uno spazio latente (VAE).

Al posto di fare affidamento su coppie di linguaggio-audio per l’addestramento di LDM, i ricercatori utilizzano latenti CLAP per facilitare la creazione di TTA. I loro esperimenti dimostrano che è possibile ottenere un sistema TTA di alta qualità e computazionalmente conveniente utilizzando solo l’input audio nell’addestramento di LDM. Il loro studio mostra che è possibile addestrare LDM in modo più efficace utilizzando solo l’audio rispetto alle coppie di dati audio-testo.

Quando testato sul dataset AudioCaps, l’AudioLDM proposto supera di gran lunga il baselines DiffSound, raggiungendo una performance TTA all’avanguardia con una distanza fresca (FD) di 23,31. Questa tecnica permette cambiamenti audio senza bisogno di dati durante il campionamento.

Dataset EPIC SOUNDS

Infine, la University of Oxford e la University of Bristol hanno utilizzato EPIC-audio KITCHENS100 per creare EPIC-SOUNDS, un enorme dataset di rumori quotidiani. EPIC-SOUNDS include 100 ore di filmati provenienti da 700 video di 45 cucine residenziali, con un totale di 117.553 eventi sonori. Questo include 78.366 eventi sonori categorizzati in 44 categorie e 39.187 eventi sonori non categorizzati. Le classi di suoni vengono create utilizzando solo descrizioni uditive, rendendole adatte a sfide acustiche come il riconoscimento audio/sonoro e il rilevamento di eventi sonori.

La tecnologia di generazione musicale potrebbe trasformare profondamente la cultura musicale e ridefinire le connessioni economiche degli stakeholder. Molti ricercatori hanno mostrato preoccupazione su come questi modelli presentino profondi pericoli, come ad esempio aumentare l’accesso all’interazione creativa nella musica. Più specificamente per l’argomento in questione, la voce umana come strumento di canto ha possibilmente le connotazioni più forti con l’identità personale di qualsiasi strumento musicale.

Per evitare gli svantaggi dei sistemi che generano musica da zero o che imitano le identità, molti ricercatori ritengono che questi modelli dovrebbero fare affidamento sull’iniziativa dell’utente (il canto) per produrre musica e mantenere l’individualità delle persone intatta nell’output.

I ricercatori ritengono anche che gli studi recenti cambieranno l’industria e renderanno i creatori di musica più produttivi, permettendo loro di generare idee musicali e concetti più velocemente, sperimentare nuovi suoni e stili e automatizzare compiti ripetitivi. Inoltre, i musicisti umani apportano un livello di arte e sfumature alla musica che una macchina non può replicare.