ByteDance AI Research presenta StemGen un modello di apprendimento approfondito per la generazione musicale che ascolta il contesto musicale e risponde in modo appropriato.

ByteDance AI Research presenta StemGen un modello di apprendimento approfondito per una generazione musicale che ascolta il contesto e risponde in modo appropriato.

La generazione di musica utilizzando il deep learning coinvolge l’addestramento di modelli per creare composizioni musicali, imitando i pattern e le strutture trovate nella musica esistente. Comunemente vengono utilizzate tecniche di deep learning, come le reti RNN, le reti LSTM e i modelli di trasformatori. Questa ricerca esplora un approccio innovativo per la generazione di audio musicale utilizzando modelli basati su trasformatori non autoregressivi che rispondono al contesto musicale. Questo nuovo paradigma enfatizza l’ascolto e la risposta, a differenza dei modelli esistenti che si basano sulla condizionamento astratto. Lo studio incorpora i progressi recenti nel campo e discute le migliorie apportate all’architettura.

Ricercatori di SAMI, ByteDance Inc., presentano un modello basato su trasformatori non autoregressivo che ascolta e risponde al contesto musicale, sfruttando un checkpoint di Encodec disponibile pubblicamente per il modello MusicGen. La valutazione utilizza metriche standard e un approccio di recupero delle informazioni sulla musica, compresi il FAD (Frechet Audio Distance) e il MIRDD (Music Information Retrieval Descriptor Distance). Il modello risultante dimostra una qualità audio competitiva e un’allineamento musicale robusto con il contesto, convalidato tramite metriche oggettive e test MOS soggettivi.

La ricerca evidenzia i recenti progressi nella generazione di audio musicale end-to-end attraverso il deep learning, prendendo in prestito tecniche dal trattamento di immagini e linguaggio. Sottolinea la sfida di allineare i brani nella composizione musicale e critica i modelli esistenti che si basano sul condizionamento astratto. Propone un paradigma di addestramento che utilizza un’architettura basata su trasformatori non autoregressiva per modelli che rispondono al contesto musicale. Introduce due fonti di condizionamento e struttura il problema come una generazione condizionata. Sono necessarie metriche oggettive, descrittori di recupero delle informazioni sulla musica e test di ascolto per la valutazione del modello.

Il metodo utilizza un modello basato su trasformatori non autoregressivi per la generazione di musica, incorporando un quantizzatore vettoriale residuale in un modello di codifica audio separato. Combina più canali audio in un singolo elemento di sequenza attraverso l’incorporazione concatenata. L’addestramento utilizza una procedura di mascheramento e viene utilizzata una guida senza classificatore durante il campionamento dei token per un miglior allineamento del contesto audio. Le metriche oggettive valutano le prestazioni del modello, inclusa la Fr’echet Audio Distance e la Music Information Retrieval Descriptor Distance. La valutazione coinvolge la generazione e il confronto di output di esempio con steli reali utilizzando diverse metriche.

Lo studio valuta i modelli generati utilizzando metriche standard e un approccio di recupero delle informazioni sulla musica, compresi FAD e MIRDD. Il confronto con gli steli reali indica che i modelli raggiungono una qualità audio paragonabile ai modelli testuali state-of-the-art e dimostrano una forte coerenza musicale con il contesto. Un test Mean Opinion Score che coinvolge partecipanti con formazione musicale convalida ulteriormente la capacità del modello di produrre risultati musicali plausibili. MIRDD, valutando l’allineamento distributivo dei brani generati e reali, fornisce una misura di coerenza musicale e allineamento.

In conclusione, la ricerca condotta può essere riassunta nei seguenti punti:

  • La ricerca propone un nuovo approccio di addestramento per modelli generativi che possono rispondere al contesto musicale.
  • L’approccio introduce un modello di linguaggio non autoregressivo con una struttura basata su trasformatori e due migliorie non testate: guida multi-sorgente senza classificatore e bias causale durante la decodifica iterativa.
  • I modelli raggiungono una qualità audio state-of-the-art addestrandosi su set di dati open-source e proprietari.
  • Metriche standard e un approccio di recupero delle informazioni sulla musica hanno convalidato la qualità audio state-of-the-art.
  • Un test Mean Opinion Score conferma la capacità del modello di generare risultati musicali realistici.