Incontra Audiobox Un nuovo modello di ricerca fondamentale di Meta AI per la generazione audio

Scopri Audiobox Il nuovo modello di ricerca straordinaria di Meta AI per la creazione di audio

L’audio svolge un ruolo importante nel campo dei media e dell’intrattenimento. Influenza tutto, dai film ai podcast, dagli audiolibri ai videogiochi. Tuttavia, produrre audio di alta qualità richiede vaste librerie sonore e una profonda esperienza nel settore.

Di conseguenza, i ricercatori Meta hanno formulato un nuovo modello di intelligenza artificiale chiamato Audiobox che può generare voci ed effetti sonori utilizzando una combinazione di voci di input e prompt di testo in linguaggio naturale, rendendo facile creare audio personalizzato per una vasta gamma di casi d’uso. Ha capacità di generazione e modifica unificate per discorsi, effetti sonori e ambienti sonori.

I ricercatori hanno sottolineato che si tratta di un grande passo nel combinare le capacità di generazione e modifica per vari elementi audio. Può generare voci ed effetti sonori utilizzando una combinazione di voci di input e prompt di testo in linguaggio naturale, rendendo facile creare audio personalizzato per una vasta gamma di casi d’uso.

Audiobox è stato realizzato come successore di Voicebox e migliora le capacità del suo predecessore, introducendo anche una piattaforma unificata che potenzia la generazione e la modifica di diversi elementi audio.

Il vantaggio di Audiobox è la sua capacità di produrre voci ed effetti sonori combinando voci di input con prompt di testo in linguaggio naturale. Questo metodo rende più facile il processo di creazione di audio unico per una varietà di casi d’uso. Ad esempio, gli utenti possono testualmente descrivere ad Audiobox un suono o un tipo di discorso desiderato e Audiobox creerà automaticamente l’audio corrispondente.

Inoltre, consente agli utenti di utilizzare prompt di testo in linguaggio naturale per descrivere lo stile di discorso desiderato. Questo è un vantaggio in termini di adattabilità di Audiobox. Audiobox consente anche agli utenti di personalizzare le impostazioni audio con prompt di testo. Ad esempio, è sufficiente inserire un prompt di testo dettagliato per creare un’atmosfera sonora serena con un fiume che scorre e uccelli che cinguettano, e Audiobox realizzerà questa visione.

Grazie all’aiuto di Audiobox, gli utenti possono modificare le voci in modo che sembrino provenire da un ambiente diverso. Questo viene realizzato unendo un prompt di stile di testo a un input vocale audio, consentendo agli utenti di creare discorsi sintetizzati che si adattino alle loro preferenze.

I ricercatori hanno testato Audiobox su vari modelli come AudioLDM2, VoiceLDM e TANGO in termini di qualità e pertinenza e hanno scoperto che Audiobox li supera. Hanno constatato che ha superato Voicebox per similarità di stile di oltre il 30 percento in vari stili di discorso.

I ricercatori hanno affermato che Audiobox abbasserà la barriera di accesso alla creazione audio e renderà facile per chiunque diventare un creatore di contenuti audio.

I ricercatori vogliono passare dalla costruzione di modelli audio-generativi specializzati che possono generare solo un tipo di audio alla costruzione di modelli audio-generativi generalizzati che possono creare qualsiasi tipo di audio.

In conclusione, Audiobox è un modello significativo nell’evoluzione della tecnologia audio. La sua interfaccia intuitiva e le potenti capacità ridefiniscono il nostro approccio alla creazione audio e aprono nuove possibilità per individui, professionisti esperti e appassionati di dare forma e condividere le loro uniche visioni uditive.

Articolo originale: Incontra Audiobox: il nuovo modello di ricerca fondamentale di Meta AI per la generazione audio, pubblicato su MarkTechPost.