Una nuova ricerca sull’IA dall’Italia introduce un modello generativo basato sulla diffusione capace sia di sintesi musicale che di separazione delle fonti

Nuova ricerca italiana sull'IA introduce un modello generativo per la sintesi e separazione delle fonti musicali

Gli esseri umani sono capaci di elaborare contemporaneamente diverse fonti sonore, sia in termini di composizione musicale o sintesi e analisi, ovvero separazione delle sorgenti. In altre parole, il cervello umano può separare singole sorgenti sonore da una miscela e viceversa, ovvero sintetizzare diverse sorgenti sonore per formare una combinazione coerente. Quando si tratta di esprimere matematicamente questa conoscenza, i ricercatori utilizzano la densità di probabilità congiunta delle sorgenti. Ad esempio, le miscele musicali hanno un contesto tale che la densità di probabilità congiunta delle sorgenti non si fattorizza nel prodotto delle sorgenti individuali.

Attualmente non esiste un modello di deep learning in grado di sintetizzare molte sorgenti in una miscela coerente e separare le sorgenti individuali da una miscela. Per quanto riguarda le attività di composizione o generazione musicale, i modelli apprendono direttamente la distribuzione delle miscele, offrendo una modellazione accurata della miscela ma perdendo tutte le informazioni sulle sorgenti individuali. I modelli per la separazione delle sorgenti, al contrario, apprendono un singolo modello per ciascuna distribuzione delle sorgenti e condizionano la miscela al momento dell’infusione. Pertanto, tutti i dettagli cruciali riguardanti l’interdipendenza delle sorgenti vengono persi. È difficile generare miscele in entrambi i casi.

Avvicinandosi alla costruzione di un modello di deep learning in grado di eseguire sia la separazione delle sorgenti che la generazione musicale, i ricercatori del GLADIA Research Lab dell’Università di Roma hanno sviluppato il Modello di Diffusione Multi-Sorgente (MSDM). Il modello viene addestrato utilizzando la densità di probabilità congiunta delle sorgenti che condividono un contesto, denominata distribuzione precedente. Il compito di generazione viene svolto campionando utilizzando la precedente, mentre il compito di separazione viene svolto condizionando la distribuzione precedente sulla miscela e campionando quindi dalla distribuzione posteriore risultante. Questo approccio rappresenta un significativo primo passo verso i modelli audio universali perché è un modello unico nel suo genere in grado di eseguire sia compiti di generazione che di separazione.

I ricercatori hanno utilizzato il dataset Slakh2100 per i loro esperimenti. Oltre 2100 tracce compongono il dataset Slakh2100, rendendolo un dataset standard per la separazione delle sorgenti. Slakh2100 è stato scelto come dataset del team principalmente perché ha una quantità di dati molto più elevata rispetto ad altri dataset multi-sorgente, il che è cruciale per stabilire la qualità di un modello generativo. Il fondamento del modello risiede nell’abilità di stimare la distribuzione congiunta delle sorgenti, ovvero la distribuzione precedente. Quindi, diversi compiti vengono risolti al momento dell’infusione utilizzando la precedente. I compiti di infusione parziali, come il riempimento delle sorgenti, in cui viene generato un sottoinsieme delle sorgenti date le altre (ad esempio utilizzando una traccia di pianoforte che completa la batteria), sono alcuni compiti aggiuntivi insieme ai classici compiti di infusione totale.

I ricercatori hanno utilizzato un modello generativo basato sulla diffusione addestrato utilizzando il score-matching per apprendere la precedente. Questa tecnica è spesso nota come “score-matching di denoising”. L’idea chiave del score-matching è approssimare la funzione “score” della distribuzione target anziché la distribuzione stessa. Un’altra importante aggiunta fatta dai ricercatori è stata l’introduzione di un nuovo metodo di campionamento basato sulle funzioni delta di Dirac per ottenere risultati evidenti nei compiti di separazione delle sorgenti.

Per valutare il loro modello sulla separazione, generazione parziale e totale, i ricercatori hanno effettuato una serie di test. Le prestazioni del modello nei compiti di separazione sono state paragonabili a quelle di altri modelli regressori all’avanguardia. I ricercatori hanno anche spiegato che la quantità di dati contestuali attualmente accessibili limita le prestazioni del loro algoritmo. Il team ha considerato la pre-separazione delle miscele e l’utilizzo di esse come dataset per affrontare il problema. In sintesi, il Modello di Diffusione Multi-Sorgente per la separazione e la generazione totale e parziale nel dominio musicale fornito dal GLADIA Research Lab è un nuovo paradigma. Il gruppo spera che il loro lavoro incoraggi altri accademici a condurre ricerche più approfondite nel campo della musica.