Meta AI open source AudioCraft una libreria PyTorch per la ricerca di apprendimento profondo sulla generazione di audio

Meta AI open source AudioCraft PyTorch library for deep learning research on audio generation.

Per consentire ai ricercatori e agli operatori del settore di addestrare i propri modelli e avanzare lo stato dell’arte, Meta ha rilasciato il codice sorgente per la sua intelligenza artificiale generativa di testo-musica, AudioCraft. MusicGen, AudioGen e EnCodec sono i tre modelli che compongono il framework AudioCraft per lo sviluppo.

  • MusicGen può generare musica basata su input testuali dell’utente perché è stato addestrato con musica di proprietà di Meta e specificamente concessa in licenza.
  • AudioGen può creare audio da input testuali ed essere addestrato in effetti sonori pubblici.
  • EnCodec è un codificatore, quantizzatore e decodificatore guidato dall’intelligenza artificiale a tre in uno.

AudioGen può creare audio da input testuali ed essere addestrato in effetti sonori pubblici. Meta ha rilasciato una nuova e migliorata versione del decodificatore EnCodec, che consente una generazione di musica di alta qualità con meno artefatti, oltre al modello AudioGen preaddestrato, che può essere utilizzato per generare suoni ambientali ed effetti sonori come il latrato di un cane, il clacson di una macchina o i passi su un pavimento di legno, e tutti i pesi e il codice per il modello AudioCraft. I ricercatori interessati ad approfondire la tecnologia possono utilizzare i modelli. Meta è entusiasta di rendere la sua piattaforma disponibile per la prima volta a ricercatori e operatori del settore, consentendo loro di addestrare i propri modelli con i propri set di dati e contribuire allo stato dell’arte.

Dopo l’addestramento, può produrre musica o effetti sonori realistici e di alta qualità in base alle parole inserite dall’utente. MusicGen, AudioGen e EnCodec sono i tre modelli presenti in AudioCraft. MusicGen e AudioGen possono generare musica ed effetti sonori da testo basandosi sui rispettivi set di addestramento. MusicGen utilizza musica di proprietà e concessa in licenza da Meta, mentre AudioGen utilizza set di dati audio pubblici. Meta ha rilasciato due modelli nel giugno e nell’ottobre del 2017: MusicGen e AudioGen.

Meta afferma che, grazie alla sua interfaccia intuitiva, AudioCraft può produrre suoni di alta qualità professionale. Affermano anche che semplifica il design attuale di generazione audio all’avanguardia mediante l’impiego di un nuovo metodo. Descrivono come AudioCraft utilizzi il codec audio neurale EnCodec per estrarre informazioni significative dai dati audio grezzi. Successivamente, un modello di linguaggio autoregressivo riceve un “vocabolario” predefinito di campioni musicali (token audio). Questo modello addestra un nuovo modello di linguaggio audio sfruttando la struttura sottostante dei token per catturare le loro relazioni a lungo termine, importanti per la creazione di musica. Il nuovo modello genera token basati sulla descrizione testuale e li invia al decodificatore EnCodec, consentendo la sintesi audio e musicale.

Meta dimostra come AudioGen sia unico rispetto ai generatori di musica AI convenzionali. Le rappresentazioni simboliche della musica, come il formato MIDI o i rotoli di carta perforata per pianoforte, sono state utilizzate a lungo nell’addestramento musicale per produrre modelli di intelligenza artificiale. Tuttavia, questi approcci devono essere rivisti quando si registrano le sfumature dell’espressione musicale e i componenti estetici. Un approccio più complesso prevede l’alimentazione della musica originale nel sistema e l’utilizzo dell’apprendimento delle rappresentazioni audio a autosupervisione (apprendimento delle rappresentazioni audio) e di modelli gerarchici multipli (modello a cascata) per generare musica, al fine di catturare la struttura a lungo raggio del segnale. Si ottiene un buon suono, anche se gli effetti potrebbero richiedere qualche lavoro.

In conformità ai principi di Responsabile IA, i ricercatori di Meta stanno creando le schede dei modelli AudioGen e MusicGen, che documentano come sono stati sviluppati i modelli, disponibili alla comunità di ricerca in varie dimensioni. Il framework di ricerca audio e il codice di addestramento sono aperti al pubblico sotto licenza MIT in modo che altri possano utilizzarli e ampliarli. Meta ritiene che tali modelli potrebbero essere utili per musicisti amatoriali e professionisti se fossero sviluppati controlli più sofisticati. Pensate alle possibilità per una lettura di storie della buonanotte arricchita da effetti sonori e musica drammatica che potrebbero essere rese possibili con una solida base open-source.