Incontra GETMusic un quadro unificato di rappresentazione e diffusione che può generare qualsiasi brano musicale con un quadro unificato di rappresentazione e diffusione.

Incontra GETMusic, un quadro unificato per la rappresentazione e la diffusione di brani musicali.

Negli ultimi anni, sono stati compiuti significativi progressi nella generazione musicale utilizzando modelli di apprendimento automatico. Tuttavia, ci sono ancora sfide nel raggiungere efficienza e controllo sostanziale sui risultati. I tentativi precedenti hanno incontrato difficoltà principalmente a causa delle limitazioni nelle rappresentazioni musicali e nelle architetture dei modelli.

Dato che possono esserci numerosissime combinazioni di tracce di origine e di destinazione, è necessario un modello unificato in grado di gestire compiti completi di generazione di tracce e produrre risultati desiderati. Le ricerche attuali sulla generazione di musica simbolica possono essere generalizzate in due categorie basate sulle rappresentazioni musicali adottate. Queste sono basate su sequenze e basate su immagini. L’approccio basato su sequenze rappresenta la musica come una sequenza di token discreti, mentre l’approccio basato su immagini rappresenta la musica come immagini 2D con i rolli del pianoforte come scelta ideale. I rolli del pianoforte rappresentano le note musicali come linee orizzontali, dove la posizione verticale rappresenta l’altezza e la lunghezza della linea rappresenta la durata.

Per affrontare la necessità di un modello unificato in grado di generare tracce arbitrarie, un team di ricercatori della Cina ha sviluppato un framework chiamato GETMusic (GET sta per GEnerate music Tracks). GETMusic comprende molto bene l’input ed è in grado di produrre musica per tracce. Questo framework consente agli utenti di creare ritmi e aggiungere elementi aggiuntivi per realizzare tracce desiderate. Questo framework è in grado di creare musica da zero e può produrre tracce guidate e miste.

GETMusic utilizza una rappresentazione chiamata GETScore e un modello di diffusione discreta chiamato GETDiff. GETScore rappresenta le tracce in una struttura 2D in cui le tracce sono impilate verticalmente e progrediscono orizzontalmente nel tempo. I ricercatori hanno rappresentato le note musicali con un token di altezza e durata. Il compito di GETDiff è selezionare casualmente tracce come destinazioni o tracce di origine. GETDiff svolge due processi: il processo di avanzamento e il processo di denoising. Nel processo di avanzamento, GETDiff corrompe la traccia di destinazione mascherando i token, lasciando intatte le tracce di origine come verità fondamentale. Mentre nel processo di denoising, GETDiff impara a prevedere i token di destinazione mascherati in base alle tracce di origine fornite.

I ricercatori sottolineano che questo innovativo framework fornisce un controllo esplicito sulla generazione delle tracce di destinazione desiderate, partendo da zero o basandosi su tracce di origine fornite dall’utente. Inoltre, GETScore si distingue come una rappresentazione musicale multi-traccia concisa, semplificando il processo di apprendimento del modello e consentendo la generazione armoniosa di musica. Inoltre, i token di altezza utilizzati in questa rappresentazione mantengono efficacemente le dipendenze polifoniche, promuovendo la creazione di composizioni musicali armonicamente ricche.

Oltre alle sue capacità di generazione traccia per traccia, il meccanismo avanzato di mascheramento e denoising di GETDiff consente di eseguire infilling senza bisogno di dati. Questa caratteristica straordinaria consente di denoizzare senza soluzione di continuità i token mascherati in posizioni arbitrarie all’interno di GETScore, spingendo i confini della creatività e migliorando la versatilità complessiva del framework.

Nel complesso, GETMusic si comporta bene, superando molti altri modelli simili, dimostrando una corrispondenza melodica, ritmica e strutturale superiore tra le tracce di destinazione e le tracce di origine fornite. In futuro, i ricercatori intendono esplorare il potenziale di questo framework, con particolare attenzione all’integrazione dei testi come traccia aggiuntiva. Questa integrazione mira a consentire capacità impressionanti di generazione di melodia a partire dai testi, avanzando ulteriormente la versatilità e il potere espressivo del modello. Combinare in modo fluido elementi testuali e musicali potrebbe aprire nuove possibilità creative e migliorare l’esperienza musicale complessiva.