Incontra WavJourney un framework di intelligenza artificiale per la creazione audio compositiva con grandi modelli linguistici.

Incontra WavJourney, un framework di intelligenza artificiale per creare audio compositiva con modelli linguistici.

Il campo emergente dell’intelligenza artificiale multimodale (AI) converge dati visivi, uditivi e testuali, offrendo un potenziale entusiasmante in vari settori, dall’intrattenimento personalizzato alle funzionalità di accessibilità migliorate. Come potente intermediario, il linguaggio naturale promette di migliorare la comprensione e la comunicazione tra diversi domini sensoriali. I grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità come agenti, collaborando con vari modelli di intelligenza artificiale per affrontare sfide multimodali.

Sebbene i LLM siano apprezzati per la loro efficacia nel risolvere compiti multimodali, sorge una domanda sulle capacità fondamentali di questi modelli: possono anche servire come creatori di contenuti multimediali dinamici? La creazione di contenuti multimediali coinvolge la produzione di media digitali in varie forme, come testo, immagini e audio. L’audio, una componente cruciale dei contenuti multimediali, non solo fornisce contesto ed emozione, ma contribuisce anche a esperienze coinvolgenti.

Gli sforzi passati hanno utilizzato modelli generativi per sintetizzare il contesto audio basato su condizioni specifiche come descrizioni di discorsi o musica. Tuttavia, questi modelli spesso faticano a generare contenuti audio diversi oltre a queste condizioni, limitando la loro applicabilità nel mondo reale. La creazione audio compositiva presenta sfide intrinseche a causa della complessità di generare scene uditive intricate. Utilizzare i LLM per questa attività comporta affrontare sfide come la comprensione e il design contestuale, la produzione e la composizione dell’audio e l’istituzione di pipeline di creazione interattive e interpretabili. Queste sfide coinvolgono il miglioramento delle capacità narrative di testo-audio dei LLM, l’armonizzazione dei modelli di generazione audio e la creazione di pipeline interattive e interpretabili per la collaborazione uomo-macchina.

Sulla base delle problematiche e delle sfide sopra menzionate, è stato proposto un nuovo sistema denominato WavJourney. La sua panoramica è presentata nello schema sottostante.

WavJourney sfrutta i LLM per creare audio compositivo guidato da istruzioni linguistiche. Questa tecnica induce i LLM a generare script audio, aderendo a strutture predefinite che comprendono discorsi, musica ed effetti sonori. Questi script considerano delicatamente le relazioni spazio-temporali tra questi elementi acustici. Affrontando scene uditive complesse, WavJourney le scompone in componenti acustiche individuali e le relative disposizioni acustiche. Questo script audio viene quindi inserito in un compilatore di script, che produce un programma informatico in cui ciascuna riga di codice corrisponde all’invocazione di modelli di generazione audio specifici per compiti, funzioni di I/O audio o operazioni computazionali. Successivamente, questo programma viene eseguito per generare il contenuto audio desiderato.

Il design di WavJourney offre diversi vantaggi notevoli. In primo luogo, sfrutta la comprensione e la vasta conoscenza dei LLM per creare script audio con elementi sonori diversi, connessioni acustiche intricate e narrazioni audio coinvolgenti. In secondo luogo, adotta una strategia compositiva, scomponendo scene uditive complesse in distinti elementi sonori. Ciò consente l’incorporazione di diversi modelli di generazione audio specifici per compiti per la creazione di contenuti, distinguendolo dai metodi end-to-end che spesso faticano a considerare tutti gli elementi descritti nel testo. In terzo luogo, WavJourney opera senza la necessità di addestrare modelli audio o affinare i LLM, ottimizzando l’utilizzo delle risorse. Infine, agevola la co-creazione tra esseri umani e macchine nella produzione audio del mondo reale.

I risultati campione selezionati dallo studio sono mostrati nell’immagine sottostante. Questi casi di studio forniscono una panoramica comparativa tra WavJourney e approcci di generazione all’avanguardia.

Questo è stato il riassunto di WavJourney, un nuovo framework di intelligenza artificiale che sfrutta LLM per creare audio composito guidato da istruzioni linguistiche. Se sei interessato e vuoi saperne di più, non esitare a consultare i link citati di seguito.