Incontra Mustango un sistema di testo-musica ispirato alla conoscenza del dominio musicale, basato sulla diffusione, che amplia il modello Tango di testo-audio.

Incontra Mustango un sistema di testo-musica che amplia il modello Tango di testo-audio con conoscenze del dominio musicale.

Nel campo della sintesi testo-musica, la qualità dei contenuti generati sta progredendo, ma la controllabilità degli aspetti musicali rimane inesplorata. Un team di ricercatori dell’Università di Tecnologia e Design di Singapore e della Queen Mary University di Londra ha introdotto una soluzione a questa sfida, chiamata Mustango, che estende il modello testo-audio di Tango, mirando a controllare la musica generata non solo con didascalie di testo generiche, ma con didascalie più ricche contenenti istruzioni specifiche relative a accordi, battute, tempo e tonalità.

I ricercatori presentano Mustango come un sistema di sintesi testo-musica basato su modelli di diffusione ispirati alla conoscenza nel dominio musicale. Sottolineano le sfide uniche nella generazione di musica direttamente da un modello di diffusione, enfatizzando la necessità di bilanciare l’allineamento con il testo condizionale e la musicalità. Mustango consente a musicisti, produttori e sound designer di creare clip musicali con condizioni specifiche come progressione degli accordi, tempo e selezione della tonalità.

Come parte di Mustango, i ricercatori propongono MuNet, un sottomodulo UNet informato sulla conoscenza nel dominio musicale. MuNet integra caratteristiche specifiche della musica, predette dalla frase di testo, tra cui accordi, battute, tonalità e tempo, nel processo di denoising di diffusione. Per superare la disponibilità limitata di dataset aperti con musica e didascalie di testo, i ricercatori introducono un nuovo metodo di data augmentation. Questo metodo prevede di alterare gli aspetti armonici, ritmici e dinamici dell’audio della musica e utilizzare metodi di recupero delle informazioni musicali per estrarre caratteristiche della musica, che vengono quindi annesse alle descrizioni di testo esistenti, dando origine al dataset MusicBench.

Il dataset MusicBench contiene oltre 52.000 istanze, arricchendo le descrizioni di testo originali con battute, posizione delle battute basse, progressione degli accordi sottostanti, tonalità e tempo. I ricercatori conducono estesi esperimenti dimostrando che Mustango raggiunge una qualità musicale ai massimi livelli. Sottolineano la controllabilità di Mustango attraverso prompt di testo specifici per la musica, mostrando una performance superiore nel catturare accordi desiderati, battute, tonalità e tempo su più dataset. Valutano l’adattabilità di questi predittori in scenari in cui le frasi di controllo sono assenti dal prompt e osservano che Mustango supera Tango in tali casi, indicando che i predittori di controllo non compromettono le prestazioni.

Gli esperimenti includono confronti con baselines, come Tango, e varianti di Mustango, dimostrando l’efficacia dell’approccio di data augmentation proposto nel migliorare le prestazioni. Mustango addestrato da zero è evidenziato come il migliore, superando Tango e altre varianti in termini di qualità audio, presenza di ritmo e armonia. Mustango ha 1,4 miliardi di parametri, molto più di Tango.

In conclusione, i ricercatori presentano Mustango come un significativo avanzamento nella sintesi testo-musica. Affrontano il divario di controllabilità nei sistemi esistenti e dimostrano l’efficacia del loro metodo proposto attraverso estesi esperimenti. Mustango non solo raggiunge una qualità musicale ai massimi livelli, ma offre anche una maggiore controllabilità, rendendolo un contributo prezioso per il campo. I ricercatori rilasciano il dataset MusicBench, offrendo una risorsa per future ricerche sulla sintesi testo-musica.