AudioSep Separare Tutto Ciò Che Descrivi

AudioSep Separare e Raccontare Ogni Dettaglio

LASS o Language-queried Audio Source Separation è il nuovo paradigma per CASA o Computational Auditory Scene Analysis che mira a separare un suono target da un dato miscuglio di audio utilizzando una query di linguaggio naturale che fornisce l’interfaccia naturale ma scalabile per compiti e applicazioni audio digitali. Sebbene i framework LASS abbiano fatto progressi significativi negli ultimi anni nel raggiungere prestazioni desiderate su fonti audio specifiche come strumenti musicali, non sono in grado di separare l’audio target nel dominio aperto.

AudioSep, è un modello fondamentale che mira a risolvere le attuali limitazioni dei framework LASS consentendo la separazione dell’audio target utilizzando query di linguaggio naturale. Gli sviluppatori del framework AudioSep hanno addestrato ampiamente il modello su una varietà di dataset multimodali su larga scala e hanno valutato le prestazioni del framework su una vasta gamma di compiti audio, inclusa la separazione degli strumenti musicali, la separazione degli eventi audio e il miglioramento del parlato, tra molti altri. Le prestazioni iniziali di AudioSep soddisfano i benchmark in quanto dimostra imponenti capacità di apprendimento zero-shot e offre una forte prestazione di separazione audio.

In questo articolo, approfondiremo il funzionamento del framework AudioSep esaminando l’architettura del modello, i dataset utilizzati per l’addestramento e la valutazione e i concetti essenziali coinvolti nel funzionamento del modello AudioSep. Iniziamo con una breve introduzione al framework CASA.

CASA, USS, QSS, Framework LASS: La Fondazione di AudioSep

Il framework CASA o Computational Auditory Scene Analysis è un framework utilizzato dagli sviluppatori per progettare sistemi di ascolto automatico che hanno la capacità di percepire ambienti sonori complessi in modo simile a come gli esseri umani percepiscono il suono utilizzando il loro sistema uditivo. La separazione del suono, con una particolare attenzione alla separazione del suono target, è una zona fondamentale di ricerca all’interno del framework CASA e mira a risolvere il “problema del cocktail party” o la separazione delle registrazioni audio del mondo reale da registrazioni o file audio di singole sorgenti audio. L’importanza della separazione del suono può essere attribuita principalmente alle sue ampie applicazioni, tra cui la separazione delle sorgenti musicali, la separazione delle sorgenti audio, il miglioramento del parlato, l’identificazione del suono target e molto altro.

La maggior parte dei lavori sulla separazione del suono fatti in passato riguarda principalmente la separazione di una o più sorgenti audio come la separazione musicale o la separazione del parlato. Un nuovo modello chiamato USS o Universal Sound Separation mira a separare suoni arbitrari nelle registrazioni audio del mondo reale. Tuttavia, separare ogni sorgente audio da un miscuglio audio è una sfida e un compito restrittivo principalmente a causa della vasta gamma di diverse sorgenti sonore presenti nel mondo, motivo principale per cui il metodo USS non è fattibile per applicazioni del mondo reale che operano in tempo reale.

Un’alternativa fattibile al metodo USS è il QSS o il metodo Query-based Sound Separation che mira a separare una singola o una sorgente sonora target dal miscuglio audio in base a un particolare insieme di query. Grazie a questo, il framework QSS consente agli sviluppatori e agli utenti di estrarre le fonti audio desiderate dal miscuglio in base alle loro esigenze, rendendo il metodo QSS una soluzione più pratica per applicazioni digitali del mondo reale come l’editing di contenuti multimediali o l’editing audio.

Inoltre, gli sviluppatori hanno proposto di recente un’estensione del framework QSS, il framework LASS o il framework Language-queried Audio Source Separation, che mira a separare fonti arbitrarie di suono da un miscuglio audio utilizzando descrizioni di linguaggio naturale della sorgente audio target. Poiché il framework LASS consente agli utenti di estrarre le sorgenti audio target utilizzando un insieme di istruzioni di linguaggio naturale, potrebbe diventare uno strumento potente con applicazioni diffuse nelle applicazioni audio digitali. Rispetto ai metodi tradizionali di separazione audio o separazione visiva basati su query, l’utilizzo di istruzioni di linguaggio naturale per la separazione audio offre un grado maggiore di vantaggio in quanto aggiunge flessibilità e rende l’acquisizione di informazioni di query molto più facile e conveniente. Inoltre, rispetto ai framework di separazione audio basati su query di etichetta che utilizzano un insieme predefinito di istruzioni o query, il framework LASS non limita il numero di query di input e ha la flessibilità di essere generalizzato in modo trasparente al dominio aperto.

In origine, il framework LASS si basa sull’apprendimento supervisionato in cui il modello viene addestrato su un insieme di dati audio-testo etichettati. Tuttavia, il problema principale di questo approccio è la limitata disponibilità di dati audio-testo etichettati e annotati. Per ridurre l’affidabilità del framework LASS sui dati audio-testo annotati, i modelli vengono addestrati utilizzando l’approccio di apprendimento della supervisione multimodale. Lo scopo principale di utilizzare un approccio di supervisione multimodale è quello di utilizzare modelli di pre-training contrastivi multimodali come il modello CLIP o Contrastive Language Image Pre Training come codificatore di query per il framework. Poiché il framework CLIP ha la capacità di allineare le embedding di testo con altre modalità come l’audio o la visione, consente agli sviluppatori di addestrare i modelli LASS utilizzando modalità ricche di dati e consente l’interferenza con i dati testuali in un ambiente di apprendimento zero-shot. Tuttavia, i framework LASS attuali utilizzano dataset di piccola scala per l’addestramento e le applicazioni del framework LASS in centinaia di potenziali domini devono ancora essere esplorate.

Per risolvere le attuali limitazioni incontrate dai framework LASS, gli sviluppatori hanno introdotto AudioSep, un modello fondamentale che mira a separare il suono da una miscela audio utilizzando descrizioni in linguaggio naturale. L’attenzione attuale per AudioSep è sviluppare un modello di separazione del suono pre-addestrato che sfrutti i dataset multimodali su larga scala esistenti per consentire la generalizzazione dei modelli LASS nelle applicazioni a dominio aperto. In breve, il modello AudioSep è: “Un modello fondamentale per la separazione universale del suono in un dominio aperto utilizzando interrogazioni o descrizioni in linguaggio naturale addestrate su dataset audio e multimodali di ampia scala“.

AudioSep: Componenti chiave e architettura

L’architettura del framework AudioSep comprende due componenti chiave: un codificatore di testo e un modello di separazione.

Il codificatore di testo

Il framework AudioSep utilizza un codificatore di testo del modello di addestramento precompetitivo dell’immagine linguistica contrastiva (CLIP) o del modello di addestramento precompetitivo dell’audio e del linguaggio contrastivo (CLAP) per estrarre le incapsulature del testo all’interno di una query in linguaggio naturale. La query di testo di input consiste in una sequenza di “N” token che vengono quindi elaborati dal codificatore di testo per estrarre le incapsulature del testo per la query del linguaggio di input fornito. Il codificatore di testo utilizza una pila di blocchi di trasformatore per codificare i token di testo di input, e le rappresentazioni di output vengono aggregate dopo essere passate attraverso i livelli del trasformatore che danno origine allo sviluppo di una rappresentazione vettoriale di dimensione D fissa, dove D corrisponde alle dimensioni dei modelli CLAP o CLIP, mentre il codificatore di testo rimane congelato durante il periodo di addestramento.

Il modello CLIP è preaddestrato su un dataset su larga scala di dati accoppiati immagine-testo utilizzando l’apprendimento contrastivo, che è la ragione principale per cui il suo codificatore di testo apprende a mappare descrizioni di testo sullo spazio semantico che è condiviso anche dalle rappresentazioni visive. Il vantaggio ottenuto da AudioSep utilizzando il codificatore di testo di CLIP è che ora può scalare o addestrare il modello LASS a partire da dati audiovisivi non etichettati utilizzando le incapsulature visive come alternativa, consentendo così l’addestramento di modelli LASS senza la necessità di dati audio-testo annotati o etichettati.

Il modello CLAP funziona in modo simile al modello CLIP e utilizza l’obiettivo di apprendimento contrastivo in quanto utilizza un codificatore di testo e audio per collegare audio e linguaggio, unendo così descrizioni audio e di testo in uno spazio latente audio-testo.

Modello di separazione

Il framework AudioSep utilizza un modello ResUNet nel dominio delle frequenze che viene alimentato con una miscela di clip audio come colonna portante per il framework. Il framework funziona applicando prima una trasformazione di Fourier a tempo breve (STFT) sulla forma d’onda per estrarre uno spettrogramma complesso, uno spettrogramma di magnitudine e la fase di X. Il modello quindi segue le stesse impostazioni e costruisce una rete codificatore-decodificatore per elaborare lo spettrogramma di magnitudine.

La rete codificatore-decodificatore ResUNet è composta da 6 blocchi di residui, 6 blocchi decodificatori e 4 blocchi di riduzione. Lo spettrogramma in ogni blocco codificatore utilizza 4 blocchi residui convenzionali per ridimensionare se stesso in una caratteristica di riduzione mentre i blocchi decodificatori utilizzano 4 blocchi di deconvoluzione residui per ottenere le componenti di separazione aumentando le caratteristiche. Successivamente, ciascuno dei blocchi codificatori e i relativi blocchi decodificatori stabiliscono una connessione di salto che opera alla stessa velocità di aumento o diminuzione. Il blocco residuo del framework è composto da 2 livelli di attivazione Leaky-ReLU, 2 livelli di normalizzazione del batch e 2 livelli di rete convoluzionale. Inoltre, il framework introduce anche un percorso di ripristino residuo aggiuntivo che collega l’input e l’output di ogni singolo blocco residuo. Il modello ResUNet assume lo spettrogramma complesso X come input e produce la maschera di magnitudine M come output, con la residua della fase condizionata alle incapsulature di testo che controlla la magnitudine di scala e la rotazione dell’angolo dello spettrogramma. Lo spettrogramma complesso separato può quindi essere estratto moltiplicando la maschera di magnitudine prevista e la residua di fase con la STFT (trasformata di Fourier a tempo breve) della miscela.

Nel suo framework, AudioSep utilizza uno strato modulato linearmente per caratteristica (FiLm) per collegare il modello di separazione e il codificatore di testo dopo l’implementazione dei blocchi di convoluzione nel ResUNet.

Addestramento e perdita

Durante l’addestramento del modello AudioSep, gli sviluppatori utilizzano il metodo di aumento dell’intensità del suono e addestrano il framework AudioSep end-to-end utilizzando una funzione di perdita L1 tra i dati veri e le forme d’onda previste.

Set di dati e benchmark

Come già menzionato nelle sezioni precedenti, AudioSep è un modello fondamentale che mira a risolvere la dipendenza attuale dei modelli LASS dai set di dati audio-testo annotati. Il modello AudioSep è addestrato su una vasta gamma di set di dati per dotarlo di capacità di apprendimento multimodale, e qui è presente una descrizione dettagliata del dataset e dei benchmark utilizzati dagli sviluppatori per addestrare l’architettura di AudioSep.

AudioSet

AudioSet è un grande dataset audio a etichetta debole composto da oltre 2 milioni di frammenti audio di 10 secondi estratti direttamente da YouTube. Ogni frammento audio nel dataset AudioSet è categorizzato in base alla presenza o assenza di classi sonore senza dettagli temporali specifici sugli eventi sonori. Il dataset AudioSet include oltre 500 classi audio distinte, tra cui suoni naturali, suoni umani, suoni di veicoli e molti altri.

VGGSound

Il dataset VGGSound è un grande dataset audio-visivo che, proprio come AudioSet, è stato ottenuto direttamente da YouTube ed è composto da oltre 200.000 clip video, ognuna della durata di 10 secondi. Il dataset VGGSound è suddiviso in oltre 300 classi audio, tra cui suoni umani, suoni naturali, canti degli uccelli e altro ancora. L’uso del dataset VGGSound garantisce che l’oggetto responsabile della produzione del suono target sia anche descritto nella corrispondente clip visiva.

AudioCaps

AudioCaps è il più grande dataset di didascalie audio disponibile pubblicamente e comprende oltre 50.000 clip audio di 10 secondi estratte dal dataset AudioSet. I dati in AudioCaps sono divisi in tre categorie: dati di addestramento, dati di test e dati di validazione, e le clip audio sono annotate manualmente con descrizioni in linguaggio naturale utilizzando la piattaforma Amazon Mechanical Turk. È importante notare che ogni clip audio nel dataset di addestramento ha una singola didascalia, mentre i dati nei set di test e di validazione hanno ciascuno 5 didascalie di verità fondamentale.

ClothoV2

Il dataset ClothoV2 è un dataset di didascalie audio che consiste in clip ottenute dalla piattaforma FreeSound, e proprio come AudioCaps, ogni clip audio è annotata manualmente con descrizioni in linguaggio naturale utilizzando la piattaforma Amazon Mechanical Turk.

WavCaps

Proprio come AudioSet, WavCaps è un grande dataset audio a etichetta debole che comprende oltre 400.000 clip audio con didascalie e ha una durata totale che si avvicina a 7568 ore di dati di addestramento. Le clip audio nel dataset WavCaps sono ottenute da una vasta gamma di fonti audio, tra cui BBC Sound Effects, AudioSet, FreeSound, SoundBible e altro ancora.

Dettagli dell’addestramento

Nella fase di addestramento, il modello AudioSep campiona casualmente due segmenti audio ottenuti da due diverse clip audio dal dataset di addestramento, quindi li mescola insieme per creare una miscela di addestramento in cui la durata di ogni segmento audio è di circa 5 secondi. Il modello estrae poi lo spettrogramma complesso dal segnale di forma d’onda utilizzando una finestra di Hann di dimensione 1024 con una dimensione del passo di 320.

Il modello utilizza quindi l’encoder di testo dei modelli CLIP/CLAP per estrarre i embedding testuali, con la supervisione del testo come configurazione predefinita per AudioSep. Per il modello di separazione, il framework AudioSep utilizza uno strato ResUNet composto da 30 livelli, 6 blocchi encoder e 6 blocchi decoder che presentano un’architettura simile a quella del framework di separazione sonora universale. Inoltre, ogni blocco encoder ha due livelli convoluzionali con una dimensione del kernel di 3×3 e il numero di mappe di caratteristiche in uscita dei blocchi encoder è rispettivamente 32, 64, 128, 256, 512 e 1024. I blocchi decoder mantengono una simmetria con i blocchi encoder e gli sviluppatori applicano l’ottimizzatore Adam per addestrare il modello AudioSep con una dimensione del batch di 96.

Risultati di valutazione

Sui dataset visti

La figura seguente confronta le prestazioni del framework AudioSep sui dataset visti durante la fase di addestramento, inclusi i dataset di addestramento. La figura sottostante rappresenta i risultati della valutazione dei benchmark del framework AudioSep confrontato con sistemi di riferimento tra cui modelli di miglioramento del discorso, LASS e CLIP. Il modello AudioSep con encoder di testo CLIP è rappresentato come AudioSep-CLIP, mentre il modello AudioSep con encoder di testo CLAP è rappresentato come AudioSep-CLAP.

Come si può vedere nell’immagine, il framework AudioSep funziona bene quando si utilizzano didascalie audio o etichette di testo come query di input, e i risultati indicano le prestazioni superiori del framework AudioSep rispetto ai modelli di separazione del suono precedenti come LASS e ai modelli di separazione del suono interrogati con l’audio.

Sui dataset non visti

Per valutare le prestazioni di AudioSep in un contesto zero-shot, gli sviluppatori hanno continuato a valutare le prestazioni su dataset non visti, e il framework AudioSep offre una notevole performance di separazione in un contesto zero-shot, come mostrato nella figura sottostante.

Inoltre, l’immagine qui sotto mostra i risultati della valutazione del modello AudioSep rispetto all’ottimizzazione dell’enfasi della voce del Voicebank-Demand.

La valutazione del framework AudioSep indica una performance forte e desiderabile su dataset non visti in un contesto zero-shot, aprendo così la strada per eseguire operazioni audio su nuove distribuzioni di dati.

Visualizzazione dei risultati di separazione

La figura sottostante mostra i risultati ottenuti quando gli sviluppatori hanno utilizzato il framework AudioSep-CLAP per eseguire visualizzazioni degli spettrogrammi per le fonti audio di destinazione effettive, nonché per le misture audio e le fonti audio separate utilizzando query di testo di audios o suoni diversi. I risultati hanno permesso agli sviluppatori di osservare che il modello delle fonti separate degli spettrogrammi è vicino alle fonti reali, il che conferma i risultati oggettivi ottenuti durante gli esperimenti.

Confronto delle query di testo

Gli sviluppatori valutano le prestazioni di AudioSep-CLAP e AudioSep-CLIP su AudioCaps Mini, utilizzando le etichette degli eventi di AudioSet, le didascalie di AudioCaps e descrizioni di lingua naturale riannotate per esaminare gli effetti di diverse query, come mostrato nell’esempio successivo di AudioCaps Mini in azione.

Conclusione

AudioSep è un modello fondamentale sviluppato con l’obiettivo di essere un framework di separazione dei suoni universale e di dominio aperto che utilizza descrizioni di lingua naturale per la separazione audio. Come osservato durante la valutazione, il framework AudioSep è in grado di eseguire un’apprendimento zero-shot e senza supervisione utilizzando didascalie audio o etichette di testo come query. I risultati e le prestazioni di valutazione di AudioSep indicano una performance forte che supera i framework di separazione del suono attuali come LASS, e potrebbe essere in grado di risolvere le limitazioni attuali dei popolari framework di separazione del suono.