Meta AI presenta SeamlessM4T un modello fondamentale multilingue e multitasking che traduce e trascrive senza soluzione di continuità tra il linguaggio parlato e il testo.

Meta AI presenta SeamlessM4T, un modello multilingue e multitasking che traduce e trascrive senza soluzione di continuità tra linguaggio parlato e testo.

In un mondo in cui le interazioni sono sempre più globali, essere multilingue può colmare le lacune, favorire la comprensione e aprire porte a opportunità diverse. Imparare più lingue può fornire una comprensione della struttura linguistica e della linguistica, approfondendo la comprensione della comunicazione e del pensiero. Questo può essere particolarmente prezioso nel mondo globalizzato di oggi, in cui le interazioni interculturali sono comuni. Non pensi che questo ponte debba essere colmato anche tra gli esseri umani e l’IA?

Ricercatori di MetaAI e UC Berkeley propongono un modello multilingue e multitask fondamentale che traduce e trascrive in modo fluido tra il discorso e il testo. Lo chiamano “SeamlessM4T”. L’M4T nel nome sta per traduzione di macchine multilingue e multimodali massicciamente. È un modello di IA con traduzione da voce a testo, da voce a voce, da testo a voce, da testo a testo e riconoscimento automatico della voce per fino a 100 lingue.

Chi non conosce Babel Fish (un traduttore online)? Qual è il problema con esso? Babel Fish è un sistema di traduzione da voce a voce. Vari sistemi esistenti di questo tipo tendono a concentrarsi su lingue ad alto contenuto di risorse come l’inglese, lo spagnolo e il francese, lasciando indietro molte lingue a basso contenuto di risorse. I loro servizi sono per lo più traduzioni dall’inglese ad altre lingue e non viceversa. Questi sistemi si basano su sistemi a cascata composti da più sottosistemi, quindi le loro prestazioni non corrispondono ai loro omologhi a cascata.

Per risolvere queste limitazioni, i ricercatori hanno utilizzato oltre 1 milione di ore di dati audio di discorsi aperti per apprendere il discorso auto-supervisionato. Hanno creato un corpus multimodale di traduzioni di discorsi allineati automaticamente di oltre 470.000 ore! Per valutare la robustezza del modello nei confronti dei rumori di fondo e del parlante, hanno creato benchmark di robustezza aperti e hanno riscontrato un miglioramento del 38% e del 49%, rispettivamente.

I ricercatori affermano di aver mantenuto valutazioni sistematiche per il loro sistema durante tutto il loro flusso di lavoro per garantire prestazioni sicure e robuste. Hanno utilizzato il data mining parallelo come alternativa all’utilizzo di dati chiusi. Questo metodo consiste nell’incodificare frasi in varie lingue in uno spazio di embedding di dimensioni fisse e nel trovare istanze parallele in base a una metrica di similarità.

Creare un modello unificato di grandi dimensioni che possa gestire l’intera suite di compiti legati alla traduzione di testo e discorso getta le basi importanti per la prossima generazione di traduzione multimodale su dispositivo e su richiesta. Affermano che quando le tecnologie linguistiche sono sviluppate principalmente con questa ideologia in mente, si risolvono le esigenze della metà della popolazione mondiale, e il loro futuro lavoro consiste nel colmare questa lacuna tra coloro che parlano lingue ad alto e basso contenuto di risorse per guidare il mondo in una direzione che non è mai stata così interconnessa.

I ricercatori affermano che le prestazioni del loro modello SeamlessM4T potrebbero essere più consistenti quando si tratta di tradurre gergo o nomi propri tra lingue ad alto e basso contenuto di risorse. Il loro lavoro futuro risolverebbe questa limitazione per avere una conversazione più amichevole e moderata basata sulla lingua madre e sul gergo.