ElevenLabs rilascia Eleven Multilingual v2 un modello di intelligenza artificiale per la sintesi vocale che supporta 30 lingue.

ElevenLabs rilascia Eleven Multilingual v2, un modello AI per la sintesi vocale in 30 lingue.

Recenti ricerche condotte da ElevenLabs hanno portato alla creazione di un modello di generazione vocale multilingue chiamato Eleven Multilingual v2, che produce audio AI “emotivamente ricco” in quasi 30 lingue. Questo lavoro consentirà ai produttori di localizzare l’audio per i mercati europei, asiatici e mediorientali.

Il team di ricerca ha studiato gli indicatori del linguaggio umano per 18 mesi e ha sviluppato nuovi metodi per rilevare il contesto, esprimere emozioni nella generazione del linguaggio e sintetizzare nuove voci distinte. Il modello riconosce automaticamente quasi 30 lingue scritte e genera voce in esse con un livello di autenticità senza precedenti quando viene inserito testo nella piattaforma di text-to-speech di ElevenLabs.

La voce clonata o sintetica conserva le caratteristiche distintive della voce dello speaker, come il proprio accento nativo, in tutte le lingue parlate. È ora possibile utilizzare la stessa voce per animare materiale in 28 lingue diverse.

Questo lancio è avvenuto dopo che la piattaforma ha reso possibile a tutti gli autori utilizzare la clonazione vocale professionale. Gli utenti possono ora creare una replica digitale della propria voce praticamente indistinguibile dall’originale grazie a questo aggiornamento, rilasciato insieme a miglioramenti nella sicurezza e nelle protezioni. Oltre alle lingue esistenti (inglese, polacco, tedesco, spagnolo, francese, italiano, hindi e portoghese), il nuovo modello supporta anche il cinese, il coreano, l’olandese, il turco, lo svedese, l’indonesiano, il filippino, il giapponese, l’ucraino, il greco, il ceco, il finlandese, il rumeno, il danese, il bulgaro, il malese, lo slovacco, il croato, l’arabo classico e il tamil.

ElevenLabs ha verificato che la piattaforma esce oggi dalla fase beta, dopo l’introduzione di nuove funzionalità e miglioramenti continui. Questo cambiamento rappresenta un punto di svolta nell’impegno dell’azienda nel servire i suoi oltre 1 milione di utenti in tutto il mondo con risorse affidabili e all’avanguardia.

ElevenLabs sta inoltre lavorando a un metodo che consentirà agli utenti di collaborare con l’IA per creare nuovi contenuti audio attraverso la piattaforma.

Aggiungendo il text-to-speech in molte lingue ai contenuti visivi, l’applicazione li rende più accessibili alle persone con disabilità visive o altre esigenze di apprendimento. Ecco alcuni esempi:

  1. Lo strumento di generazione di discorsi multilingue apre nuove possibilità per gli sviluppatori e i produttori di giochi indie per tradurre esperienze di gioco e contenuti audio per il pubblico internazionale, consentendo loro di connettersi con giocatori e ascoltatori nella loro lingua senza sacrificare la qualità o l’accuratezza.
  2. Allo stesso modo, le scuole ora hanno le risorse per fornire agli studenti un accesso tempestivo a contenuti audio di alta qualità, pronunciati da madrelingua, nelle lingue di destinazione, migliorando le capacità di ascolto e pronuncia degli studenti e soddisfacendo una varietà di preferenze didattiche all’interno del loro corpo studentesco internazionale.

Riducendo il tempo e le spese necessari per produrre audio di alta qualità in numerose lingue, ElevenLabs aiuta le imprese e i creatori a produrre contenuti più originali e accessibili, comprensibili per persone di ogni background e lingua.