Amazon Transcribe annuncia un nuovo sistema ASR basato su modelli di base per il riconoscimento vocale che amplia il supporto a oltre 100 lingue.

Amazon Transcribe annuncia un nuovo sistema di riconoscimento vocale ASR basato su modelli di base che offre supporto a oltre 100 lingue.

Amazon Transcribe è un servizio di riconoscimento vocale automatico (ASR) completamente gestito che ti permette di aggiungere facilmente funzionalità di conversione del parlato in testo alle tue applicazioni. Oggi siamo lieti di annunciare un sistema di modelli fondamentali per il riconoscimento vocale di prossima generazione alimentato da un modello di base con un miliardo di parametri che estende il riconoscimento vocale automatico a più di 100 lingue. In questo articolo discuteremo alcuni dei vantaggi di questo sistema, come le aziende lo utilizzano e come iniziare. Forniremo anche un esempio dell’output di trascrizione di seguito.

Il modello fondamentale per la trascrizione del parlato di Transcribe è allenato utilizzando algoritmi auto-sorvegliati di qualità eccellente per apprendere i pattern universali intrinseci del parlato umano tra le lingue e gli accenti. È allenato su milioni di ore di dati audio non etichettati da oltre 100 lingue. Le ricette di allenamento sono ottimizzate attraverso un campionamento intelligente dei dati per bilanciare i dati di allenamento tra le lingue, garantendo che anche le lingue tradizionalmente poco rappresentate raggiungano alti livelli di precisione.

Carbyne è un’azienda software che sviluppa soluzioni cloud-based mission-critical per i centri di chiamata per i soccorritori di emergenza. La missione di Carbyne è aiutare i soccorritori di emergenza a salvare vite e la lingua non può ostacolare i loro obiettivi. Ecco come utilizzano Amazon Transcribe per perseguire la loro missione:

“La traduzione audio in tempo reale basata su IA di Carbyne è diretta a migliorare direttamente la risposta alle emergenze per i 68 milioni di americani che parlano una lingua diversa dall’inglese a casa, oltre agli fino a 79 milioni di visitatori stranieri annuali del paese. Sfruttando il nuovo modello fondamentale multilingue di ASR di Amazon Transcribe, Carbyne sarà ancora più equipaggiato per democratizzare i servizi di emergenza che salvano vite, perché Ogni. Persona. Conta.”

– Alex Dizengof, Co-Fondatore e CTO di Carbyne.

Sfruttando il modello fondamentale per il parlato, Amazon Transcribe offre un significativo miglioramento di precisione tra il 20% e il 50% per la maggior parte delle lingue. Nel caso del parlato telefonico, che è un dominio complesso e carente di dati, l’aumento di precisione è compreso tra il 30% e il 70%. Oltre al significativo miglioramento di precisione, questo grande modello di ASR offre anche miglioramenti nella leggibilità con una punteggiatura e una capitalizzazione più accurate. Con l’avvento dell’IA generativa, migliaia di aziende utilizzano Amazon Transcribe per estrarre informazioni dettagliate dai loro contenuti audio. Con una precisione significativamente migliorata e il supporto per oltre 100 lingue, Amazon Transcribe avrà un impatto positivo su tutti questi casi d’uso. Tutti i clienti esistenti e nuovi che utilizzano Amazon Transcribe in modalità batch possono accedere al riconoscimento vocale basato sul modello di base senza bisogno di apportare modifiche all’endpoint API o ai parametri di input.

Il nuovo sistema di ASR offre diverse funzionalità chiave per tutte le oltre 100 lingue in termini di facilità d’uso, personalizzazione, sicurezza dell’utente e privacy. Queste includono funzioni come la punteggiatura automatica, il vocabolario personalizzato, l’identificazione automatica della lingua, la diarizzazione del parlante, i punteggi di confidenza a livello di parola e il filtro di vocabolario personalizzato. Il supporto ampliato del sistema per diversi accenti, ambienti rumorosi e condizioni acustiche ti consente di ottenere output più accurati e ti aiuta quindi a incorporare efficacemente le tecnologie vocali nelle tue applicazioni.

Grazie all’alta precisione di Amazon Transcribe su diversi accenti e condizioni di rumore, al suo supporto per un gran numero di lingue e alla sua vasta gamma di funzionalità aggiuntive, migliaia di aziende saranno in grado di sbloccare informazioni dettagliate dai loro contenuti audio e video, aumentando così l’accessibilità e la scopribilità dei loro contenuti in vari settori. Ad esempio, i centri di contatto trascrivono e analizzano le chiamate dei clienti per individuare informazioni e migliorare successivamente l’esperienza del cliente e la produttività dell’agente. I produttori di contenuti e i distributori automaticamente generano sottotitoli utilizzando Amazon Transcribe per migliorare l’accessibilità dei contenuti.

Inizia con Amazon Transcribe

Puoi utilizzare la AWS Command Line Interface (AWS CLI), la Console di Gestione AWS e varie AWS SDK per le trascrizioni batch e continuare a utilizzare la stessa API StartTranscriptionJob per ottenere i vantaggi di prestazioni dal modello ASR migliorato senza apportare modifiche al codice o ai parametri sul tuo lato. Per ulteriori informazioni sull’utilizzo di AWS CLI e della console, consulta la documentazione Transcribing with the AWS CLI e Transcribing with the AWS Management Console.

Il primo passo è caricare i tuoi file multimediali in un Amazon Simple Storage Service (Amazon S3), un servizio di storage di oggetti costruito per archiviare e recuperare qualsiasi quantità di dati da qualsiasi luogo. Amazon S3 offre una durabilità, una disponibilità, una performance, una sicurezza all’avanguardia e una scalabilità praticamente illimitata a un costo molto basso. Puoi scegliere di salvare la tua trascrizione nel tuo proprio bucket S3 o utilizzare un bucket predefinito sicuro offerto da Amazon Transcribe. Per saperne di più sull’utilizzo dei bucket S3, consulta Creazione, configurazione e lavoro con i bucket Amazon S3.

Risultato della trascrizione

Amazon Transcribe utilizza la rappresentazione JSON per il suo output. Fornisce il risultato della trascrizione in due formati diversi: il formato testuale e il formato dettagliato. Non cambia nulla rispetto all’endpoint API o ai parametri di input.

Il formato testuale fornisce la trascrizione come un blocco di testo, mentre il formato dettagliato fornisce la trascrizione sotto forma di elementi trascritti ordinati temporalmente, insieme a metadati aggiuntivi per ogni elemento. Entrambi i formati coesistono parallelamente nel file di output.

A seconda delle funzionalità selezionate durante la creazione del lavoro di trascrizione, Amazon Transcribe crea visualizzazioni aggiuntive e arricchite del risultato della trascrizione. Ecco un esempio di codice:

{   "nomeLavoro": "2_parlanti_2_canali",    "IDaccount": "************",    "risultati": {        "trascrizioni": [{                "trascrizione": "Ciao, benvenuto."            }        ],        "etichetteSpeaker": [            {                "etichettaCanale": "ch_0",                "parlanti": 2,                "segmenti": [                ]            },            {                "etichettaCanale": "ch_1",                "parlanti": 2,                "segmenti": [                ]            }        ],        "etichetteCanale": {            "canali": [            ],            "numeroCanali": 2        },        "elementi": [                    ],        "segmenti": [        ]    },    "stato": "COMPLETATO"}

Le visualizzazioni sono le seguenti:

  • Trascrizioni – Rappresentate dall’elemento trascrizioni, contengono solo il formato testuale della trascrizione. In scenari con più parlanti e più canali, viene fornita la concatenazione di tutte le trascrizioni come un unico blocco.
  • Parlanti – Rappresentati dall’elemento etichetteSpeaker, contengono il formato testuale e dettagliato della trascrizione raggruppato per parlante. È disponibile solo quando è abilitata la funzionalità di più parlanti.
  • Canali – Rappresentati dall’elemento etichetteCanale, contengono il formato testuale e dettagliato della trascrizione raggruppato per canale. È disponibile solo quando è abilitata la funzionalità di più canali.
  • Elementi – Rappresentati dall’elemento elementi, contengono solo il formato dettagliato della trascrizione. In scenari con più parlanti e più canali, gli elementi vengono arricchiti con proprietà aggiuntive che indicano parlante e canale.
  • Segmenti – Rappresentati dall’elemento segmenti, contengono il formato testuale e dettagliato della trascrizione raggruppato per trascrizione alternativa. È disponibile solo quando è abilitata la funzionalità di risultati alternativi.

Conclusioni

Presso AWS, siamo in costante innovazione per conto dei nostri clienti. Estendendo il supporto linguistico di Amazon Transcribe a oltre 100 lingue, consentiamo ai nostri clienti di servire utenti provenienti da contesti linguistici diversi. Ciò non solo migliora l’accessibilità, ma apre anche nuove opportunità di comunicazione e scambio di informazioni su scala globale. Per saperne di più sulle funzionalità discusse in questo post, visita la pagina delle funzionalità e il post sulle novità.