Chiave maestra per la separazione delle fonti audio presentando AudioSep per separare qualsiasi cosa tu descriva

Chiave maestra per separare le fonti audio con AudioSep

L’Analisi Computazionale della Scena Uditiva (CASA) è un campo all’interno dell’elaborazione del segnale audio che si concentra sulla separazione e comprensione delle singole sorgenti sonore in ambienti uditivi complessi. Un nuovo approccio a CASA è la separazione delle sorgenti audio basata su query di linguaggio (LASS), introdotta in InterSpeech 2022. Lo scopo di LASS è separare un suono target da una miscela audio sulla base di una query di linguaggio naturale, ottenendo così un’interfaccia naturale e scalabile per le applicazioni audio digitali. Nonostante l’ottima performance di separazione su sorgenti (come strumenti musicali e una piccola classe di eventi audio), gli sforzi recenti su LASS non sono ancora in grado di separare concetti audio in ambienti a dominio aperto.

Per affrontare queste sfide, i ricercatori hanno sviluppato il modello AudioSep – separate anything audio, un modello fondamentale che mostra una notevole generalizzazione zero-shot tra le attività e forti capacità di separazione nell’aumento del discorso, nella separazione degli eventi audio e nella separazione degli strumenti musicali.

AudioSep ha due componenti chiave: un codificatore di testo e un modello di separazione. Viene utilizzato un codificatore di testo di CLIP o CLAP per estrarre l’incorporamento del testo. Successivamente, viene utilizzato un ResUNet a 30 strati composto da 6 codificatori e 6 blocchi di decodifica sulla separazione universale del suono. Ogni blocco del codificatore è composto da due strati convoluzionali con dimensioni del kernel di 3 × 3. Il modello AudioSep è stato addestrato per 1M di passi su 8 schede GPU Tesla V100.

AudioSep è stato ampiamente valutato per le sue capacità in attività come la separazione degli eventi audio, la separazione degli strumenti musicali e il miglioramento del discorso. Ha dimostrato una forte performance di separazione e un’impresionante capacità di generalizzazione zero-shot utilizzando didascalie audio o etichette di testo come query, superando nettamente modelli precedenti di separazione del suono basati su query audio e query di linguaggio.

I ricercatori hanno utilizzato il modello AudioSep-CLAP per visualizzare gli spettrogrammi per le miscelazioni audio e le sorgenti audio target di verità fondamentale, nonché per separare le sorgenti utilizzando query di testo di diverse sorgenti sonore (ad esempio, eventi audio, voce). È stato riscontrato che il modello AudioSep è in grado di ottenere uno spettrogramma della sorgente separata simile a quello della sorgente di verità fondamentale, il che è coerente con i risultati sperimentali obiettivi.

Hanno scoperto che l’utilizzo della “didascalia originale” come query di testo anziché l'”etichetta di testo” migliora significativamente le prestazioni. Ciò è dovuto al fatto che le didascalie annotate dall’uomo forniscono descrizioni più dettagliate e precise della sorgente di interesse rispetto alle etichette degli eventi audio. Nonostante la natura personalizzata e la distribuzione variabile delle parole delle didascalie riesaminate, i risultati ottenuti utilizzando la “didascalia riesaminata” sono risultati leggermente inferiori rispetto a quelli ottenuti utilizzando la “didascalia originale”, superando comunque i risultati ottenuti con l'”etichetta di testo”. Queste scoperte dimostrano la robustezza e la natura promettente di AudioSep rispetto agli scenari del mondo reale e sono diventate lo strumento per separare qualsiasi cosa gli descriviamo.

Il prossimo passo nel percorso di AudioSep è la separazione tramite tecniche di apprendimento non supervisionato e l’estensione del lavoro attuale alla separazione basata su query di visione, separazione basata su query audio e compiti di separazione degli altoparlanti.