Incontra VampNet un approccio di modellazione dei token acustici mascherati per la sintesi musicale, la compressione, l’inpainting e la variazione

VampNet un approccio di modellazione dei token acustici per vari utilizzi

Sono stati recentemente fatti significativi miglioramenti nella creazione autoregressiva di parole e musica grazie agli sviluppi nella modellazione dei token acustici discreti. Per la creazione efficace di immagini, sono stati ideati metodi di decodifica parallela iterativa non autoregressivi. Lavori come questi, che richiedono una condizionatura sia sui componenti passati che futuri della sequenza, si adattano meglio alla decodifica parallela iterativa rispetto agli approcci autoregressivi. In questo studio, utilizzano la modellazione dei token acustici e la decodifica iterativa simultanea per la sintesi audio della musica. Al meglio delle loro conoscenze, questa è la prima volta che viene utilizzata la decodifica parallela iterativa per la sintesi audio della musica neurale.

Utilizzano un prompt basato sui token per adattare il loro modello, noto come VampNet, a una vasta gamma di applicazioni. Con sequenze di token musicali deliberatamente nascoste, dimostrano la loro capacità di guidare la creazione di VampNet e di istruirlo a riempire gli spazi vuoti. I risultati di questo processo possono essere sia un metodo di compressione audio di alta qualità che varianti della musica di input originale che le assomigliano da vicino in termini di stile, genere, ritmo e strumentazione, ma che cambiano alcune sfumature di timbro e ritmo. Il loro metodo consente di posizionare i prompt ovunque, a differenza dei modelli musicali auto-regressivi, che possono eseguire solo continuazioni musicali utilizzando un audio di prefisso come prompt e facendo in modo che il modello produca musica che possa seguirlo.

Figura 1: Panoramica di VampNet. Prima, utilizzano un tokenizzatore audio per suddividere l’audio in una serie di token distinti. I token vengono prima mascherati prima di essere inviati a un modello generativo mascherato, che utilizza una tecnica efficace di campionamento iterativo di decodifica parallela a due livelli per prevedere i valori dei token mascherati. L’output viene quindi decodificato in audio.

Esplorano vari design di prompt, come periodici, di compressione e ispirati alla musica (come il mascheramento sul tempo). Scoprono che il loro modello si comporta in modo ammirevole quando viene istruito a creare loop e variazioni; da qui il nome VampNet. Offrono il loro codice per il download e consigliano vivamente alle persone di dare un’occhiata ai loro campioni audio. Ricercatori di Descript Inc. e Northwestern University hanno introdotto VampNet, un metodo per generare musica utilizzando la modellazione dei token acustici mascherati. Un file audio di input può stimolare VampNet in vari modi poiché è bidirezionale. VampNet è un ottimo strumento per creare varianti su un brano musicale poiché può funzionare in un continuum tra la compressione della musica e la produzione attraverso vari approcci di prompting.

Un musicista potrebbe utilizzare VampNet per registrare un breve loop, inserirlo nel sistema e far sì che VampNet crei varianti musicali dell’idea ogni volta che l’area in loop viene ripetuta. Intendono studiare il potenziale di VampNet e degli approcci di prompting per la co-creazione musicale interattiva in lavori futuri e le capacità di apprendimento della rappresentazione della modellazione dei token acustici mascherati.