Ricercatori dell’UCL e di Google propongono AudioSlots un modello generativo centrato sui slot per la separazione delle fonti audio nel dominio cieco.

Researchers at UCL and Google propose AudioSlots, a generative model focused on audio source separation in the blind domain.

L’uso delle reti neurali nelle architetture che operano su dati strutturati a insieme e imparano a mappare da input non strutturati a spazi di output strutturati a insieme ha recentemente ricevuto molta attenzione. Gli sviluppi recenti nell’identificazione degli oggetti e nella scoperta non supervisionata degli oggetti, specialmente nel dominio della visione, sono supportati da sistemi slot-centrici o object-centrici. Queste architetture object-centrici sono ben adatte alla separazione audio grazie al loro intrinseco bias induttivo di equivarianza permutazionale. L’obiettivo di distinguere le fonti audio dai segnali audio misti senza avere accesso a informazioni interne sulle fonti o sul processo di miscelazione è l’obiettivo dell’applicazione dei concetti chiave di queste architetture.

Figura 1: Panoramica dell’architettura: viene creato uno spettrogramma dopo aver tagliato la forma d’onda di input. Successivamente, la rete neurale codifica lo spettrogramma in un insieme di embedding di origine invarianti permutazionalmente (s1…n), che vengono quindi decodificati per produrre una collezione di spettrogrammi di origine distinti. Una funzione di perdita invariante permutazionale basata sulla corrispondenza supervisiona l’intero flusso di lavoro utilizzando gli spettrogrammi di origine ground truth.

La separazione del suono è un problema basato su insiemi poiché l’ordine delle fonti è casuale. Viene appreso un mapping da uno spettrogramma audio misto a un insieme non ordinato di spettrogrammi di origine separati, e la sfida della separazione del suono viene ricondotta a un problema di modellazione generativa condizionale invariante permutazionale. Con l’utilizzo della loro tecnica, AudioSlots, l’audio viene diviso in variabili latenti distinte per ogni origine, che vengono quindi decodificate per fornire spettrogrammi specifici per l’origine. Viene creato utilizzando funzioni codificatrici e decodificatrici basate sull’architettura Transformer. È equivariante permutazionale, rendendolo indipendente dall’ordinamento delle variabili latenti di origine (note anche come “slots”). Allenano AudioSlots con una perdita basata sulla corrispondenza per produrre sorgenti indipendenti dall’input audio misto per valutare il potenziale di tale architettura.

Ricercatori dell’University College London e di Google Research introducono AudioSlots, un’architettura generativa per spettrogrammi audio slot-centrici. Forniscono prove che AudioSlots offre il potenziale per utilizzare modelli generativi strutturati per affrontare il problema della separazione delle fonti audio. Sebbene ci siano diversi svantaggi nella loro implementazione attuale di AudioSlots, come la bassa qualità di ricostruzione per le caratteristiche ad alta frequenza e la necessità di fonti audio separate come supervisione, sono fiduciosi che questi problemi possano essere risolti e suggeriscono diverse aree potenziali per ulteriori ricerche.

Mostrano la loro metodologia in azione su un semplice compito di separazione della voce di due speaker da Libri2Mix. Scoprono che la separazione del suono con modelli generativi slot-centrici mostra promesse ma presenta alcune difficoltà: la versione del loro modello che viene presentata fatica a generare dettagli ad alta frequenza, si basa su euristici per unire insieme frammenti audio predetti in modo indipendente e ha ancora bisogno di fonti audio di riferimento ground-truth per l’addestramento. Nel loro futuro lavoro, per il quale forniscono possibili percorsi nella loro ricerca, sono ottimisti che queste difficoltà possano essere affrontate. Tuttavia, i loro risultati servono principalmente come prova di concetto per questa idea.

Consulta il documento. Non dimenticare di unirti al nostro SubReddit di ML con oltre 22k membri, al canale Discord e alla newsletter via email, dove condividiamo le ultime novità sulla ricerca di intelligenza artificiale, progetti interessanti di IA e altro ancora. Se hai domande riguardanti l’articolo sopra o se abbiamo omesso qualcosa, non esitare a inviarci un’email a [email protected]

Dai un’occhiata a centinaia di strumenti di intelligenza artificiale nel club di strumenti di IA

L’articolo I ricercatori dell’UCL e di Google propongono AudioSlots: un modello generativo slot-centrico per la separazione cieca delle sorgenti audio è apparso per primo su MarkTechPost.