Incontra SeamlessM4T il nuovo modello base di Meta AI per la traduzione vocale

Incontra SeamlessM4T, il nuovo modello di Meta AI per la traduzione vocale.

Il modello fornisce un’architettura unica e prestazioni straordinarie in diversi compiti di traduzione del parlato.

Creato utilizzando Midjourney

Recentemente ho lanciato una newsletter educativa focalizzata sull’IA, che conta già oltre 160.000 iscritti. TheSequence è una newsletter orientata all’IA, senza fronzoli (cioè senza hype, senza notizie, ecc.), che richiede 5 minuti di lettura. L’obiettivo è tenervi aggiornati su progetti di apprendimento automatico, articoli di ricerca e concetti. Provate a iscrivervi qui sotto:

TheSequence | Jesus Rodriguez | Substack

La miglior fonte per rimanere aggiornati sugli sviluppi nell’apprendimento automatico, nell’intelligenza artificiale e nei dati…

thesequence.substack.com

Il parlato sta rapidamente diventando una delle prossime frontiere dei modelli fondamentali. Mentre i domini come il linguaggio e la visione artificiale dominano ancora i titoli, il parlato sta diventando un dominio sempre più importante. Aree come la traduzione del parlato al parlato (S2ST) si sono basate su architetture a cascata che combinano un gran numero di componenti per eseguire la traduzione in modo progressivo. Il risultato è che lo spazio non ha mostrato lo stesso progresso di altre aree dei modelli fondamentali. Di recente, Meta AI Research ha presentato la ricerca dietro SeamlessM4T – Massively Multilingual & Multimodal Machine Translation, un modello di base del parlato unificato per diversi compiti di traduzione del parlato.

Nell’ecosistema attuale dei modelli fondamentali, i sistemi di traduzione automatica (MT) esistenti ruotano principalmente attorno al testo, tralasciando il supporto per il parlato, se esiste. L’integrazione del parlato nel panorama della traduzione automatica è spesso stata relegata a uno status secondario rispetto al suo controparte basata sul testo. Nonostante i successi dei modelli unimodali singoli, la realizzazione di modelli S2ST unificati che raggiungono una vastità e un’efficacia comparabili rimane lontana. Questa discrepanza radicata nelle modalità può essere attribuita a vari fattori, tuttavia la scarsità di dati audio e i confini della modellazione persistono come ostacoli prominenti. La complessità stessa che rende il parlato un’impresa più impegnativa da una prospettiva di traduzione automatica – la sua capacità di codificare informazioni più ricche ed elementi espressivi – è anche ciò che lo rende superiore nel comunicare l’intento e coltivare connessioni sociali robuste tra i partecipanti alla conversazione.

Il panorama attuale di tali sistemi è caratterizzato da tre principali carenze.

1. L’attenzione dei modelli di traduzione del parlato si concentra principalmente sulle lingue ad alto contenuto di risorse come l’inglese, lo spagnolo e il francese, tralasciando spesso le lingue a bassa risorsa.

2. Predominantemente si occupano di traduzioni dalle lingue di origine all’inglese, piuttosto che nella direzione inversa.

3. La maggior parte dei sistemi S2ST attuali si basa pesantemente su strutture a cascata, composte da più sottosistemi successivi che gestiscono la traduzione in fasi, iniziando con il riconoscimento automatico della lingua parlata (ASR), passando a T2TT e culminando nella sintesi del testo in parlato (TTS) come parte di un’architettura a tre livelli.

Gli sforzi per unificare queste capacità poliedriche all’interno di una singola entità coesa hanno dato origine a versioni iniziali di sistemi di traduzione del parlato end-to-end. Tuttavia, questi sistemi non hanno ancora raggiunto i benchmark prestazionali stabiliti dai loro omologhi a cascata.

SeamlessM4T

SeamlessM4T (Massively Multilingual and multimodal Machine Translation) è una piattaforma integrata che comprende ASR, T2TT, traduzione del parlato in testo (S2TT), traduzione del testo in parlato (T2ST) e funzionalità S2ST. Il modello si basa su una lunga storia di successi di Meta AI nello spazio della traduzione del parlato. In particolare, Meta AI ha introdotto No Language Left Behind (NLLB) nell’anno precedente, un modello di traduzione automatica da testo a testo progettato per abbracciare ben 200 lingue. Nei mesi successivi, Meta AI ha presentato il pionieristico Universal Speech Translator. Questo sistema rivoluzionario ha facilitato la traduzione diretta del parlato per Hokkien, una lingua caratterizzata dalla mancanza di un sistema di scrittura ampiamente adottato. Questo sforzo ha anche portato alla creazione di SpeechMatrix, un monumentale dataset di traduzione del parlato a parlato multilingue. Questo dataset, nato dall’innovazione di SpeechLASER, ha segnato una pietra miliare nell’ambito dell’apprendimento di rappresentazioni supervisionate. Un passo successivo si è materializzato all’inizio dell’anno in corso con la presentazione di Massively Multilingual Speech. Questa offerta completa comprendeva il riconoscimento automatico del parlato, l’identificazione della lingua e le capacità di sintesi del parlato che coprivano un’ampia gamma di oltre 1.100 lingue.

Credito immagine: Meta AI

Emergono SeamlessM4T, sintetizzando le intuizioni tratte da questi progetti diversi. Il risultato è un’esperienza di traduzione multilingue e multimodale trasformativa, derivante da un singolo modello. Questo modello è costruito meticolosamente, attingendo da un ampio spettro di fonti di dati vocali e culminando in risultati all’avanguardia.

Per costruire un modello unificato, Meta AI richiede un toolkit di modellazione sequenziale leggero in grado di integrarsi senza soluzione di continuità con altre librerie dell’ecosistema PyTorch moderno. Per soddisfare questa esigenza, Meta AI ha rielaborato fairseq, il suo toolkit originale di modellazione sequenziale. Incorporando API di modellazione e caricamento dati più efficienti, fairseq2 svolge ora un ruolo fondamentale nel guidare i processi di modellazione sottostanti di SeamlessM4T.

Credito immagine: Meta AI

Al centro del modello si trova l’architettura del modello multitask UnitY, progettata per svolgere una serie di funzioni, tra cui la generazione di testo e discorso tradotto. Questa architettura facilita anche il riconoscimento automatico del discorso, la traduzione testo-testo, la conversione testo-discorso, la traduzione discorso-testo e la traduzione discorso-discorso, funzionalità già presenti nel modello UnitY di base. Il modello multitask UnitY è strutturato intorno a tre componenti sequenziali primarie. Gli encoder di testo e discorso sono incaricati di riconoscere l’input del discorso in quasi 100 lingue. Successivamente, il decoder di testo trasforma quel significato in varie lingue per il contenuto testuale, seguito da un modello testo-unità che lo decodifica in unità acustiche discrete adattate a 36 lingue del discorso. Attraverso il pre-training dell’encoder auto-supervisionato, delle componenti di traduzione discorso-testo, traduzione testo-testo e modello testo-unità, si migliora la qualità del modello e se ne garantisce la stabilità di addestramento. Le unità discrete decodificate risultanti vengono quindi trasformate in discorso utilizzando un unit vocoder multilingue HiFi-GAN.

Meta AI utilizza un encoder del discorso auto-supervisionato noto come w2v-BERT 2.0, una versione migliorata di w2v-BERT caratterizzata da una migliore stabilità di addestramento e qualità di rappresentazione. Questo encoder è addestrato a discernere la struttura e il significato nei modelli di discorso, tracciando intuizioni da vasti volumi di discorsi multilingue che coprono milioni di ore. Funzionalmente, l’encoder disseziona il segnale audio in segmenti più piccoli, costruendo una rappresentazione interna del contenuto parlato. Dato che il linguaggio parlato comprende vari suoni e caratteri, viene utilizzato un adattatore di lunghezza per mappare questi elementi alle parole corrispondenti, sebbene in modo approssimativo.

Allo stesso modo, Meta AI utilizza un encoder di testo basato sul modello NLLB. Questo encoder di testo è addestrato a comprendere i contenuti testuali in quasi 100 lingue, generando rappresentazioni che si rivelano preziose nei compiti di traduzione.

Il decoder di testo di Meta AI è in grado di elaborare rappresentazioni di discorso codificate o rappresentazioni testuali. Questa capacità viene sfruttata per compiti nella stessa lingua, inclusi il riconoscimento automatico del discorso e gli sforzi di traduzione multilingue. Ad esempio, quando un oratore pronuncia la parola “bonjour” in francese, viene generato in modo fluido il testo tradotto corrispondente in swahili, “habari”. Attraverso l’addestramento multitask, Meta AI sfrutta le capacità di un robusto modello di traduzione testo-testo (NLLB) per guidare il modello di traduzione discorso-testo tramite distillazione delle conoscenze a livello di token.

Nel contesto della produzione di discorsi, Meta AI sfrutta unità acustiche per rappresentare il discorso di destinazione. Il componente testo-unità (T2U) all’interno del modello UnitY coordina la creazione di unità di discorso discrete basate sull’output testuale. Questo componente viene sottoposto a pre-training sui dati ASR prima della fase di affinamento di UnitY. Successivamente, viene utilizzato un unit vocoder multilingue HiFi-GAN per convertire queste unità discrete in forme d’onda audio.

I modelli basati sui dati come SeamlessM4T traggono notevoli vantaggi da volumi consistenti di dati end-to-end di alta qualità, in particolare dati di traduzione da discorso a testo e da discorso a discorso. Tuttavia, affidarsi esclusivamente a dati di discorsi trascritti e tradotti manualmente è insufficiente per affrontare le complessità della traduzione del discorso per 100 lingue. In risposta, Meta AI si basa sul suo lavoro pionieristico nell’estrazione di testo-testo, utilizzando una misura di similarità in uno spazio di embedding unificato, insieme a esplorazioni iniziali nell’estrazione di discorsi, per generare risorse aggiuntive per l’addestramento del modello SeamlessM4T.

I Risultati

Con un singolo modello, il SeamlessM4T di Meta AI raggiunge risultati all’avanguardia in un impressionante spettro di quasi 100 lingue. Questo risultato è potenziato dalle sue capacità multitasking, che includono il riconoscimento automatico del discorso, il discorso al testo, il discorso al discorso, il testo al discorso e le funzionalità di traduzione testo-testo.

È importante sottolineare che il sistema estende i suoi progressi per includere lingue con risorse di basso e medio livello, migliorando significativamente le loro prestazioni. Questo potenziamento è accompagnato dall’eccellenza inderogabile del sistema nel fornire risultati robusti per le lingue ad alta risorsa.

Nel perseguimento di una valutazione accurata del sistema, Meta AI introduce una metrica estesa, BLASER 2.0, che va oltre le valutazioni basate sul testo. Questa metrica evoluta consente la valutazione di unità di testo e di discorso con un’accuratezza simile al suo predecessore. Attraverso test rigorosi di robustezza, il sistema mostra una resilienza eccezionale nelle attività di trascrizione del discorso. Davanti a rumori di fondo e variazioni nelle caratteristiche del parlante, il sistema registra notevoli miglioramenti, rispettivamente del 37% e del 48%, superando il modello state-of-the-art attuale.

Image Credit: Meta AI

SeamlessM4T è sicuramente uno dei modelli fondamentali più interessanti mai creati per la traduzione del discorso. Speriamo di vederlo integrato negli sforzi multimodali di Meta AI.