Come abbiamo insegnato a Google Traduttore a riconoscere gli omonimi

Come abbiamo addestrato Google Traduttore a distinguere gli omonimi

Ti piace il basso?

La tua risposta a questa domanda dipende probabilmente dal fatto che stai pensando a frutti di mare o alla musica. Questo perché “basso” e “basso” sono omonimi, due (o più) parole con la stessa grafia o pronuncia che significano cose diverse. Quando incontri un omonimo come “basso” nella vita reale, probabilmente usi indizi del contesto per capire la domanda e trovare una risposta appropriata. E così fa anche Google Translate. Grazie all’apprendimento automatico avanzato, Translate può analizzare il contesto e distinguere tra vari omonimi. Tuttavia, arrivare a questo punto ha richiesto molto lavoro.

Nelle prime fasi di Google Translate, le traduzioni tendevano ad essere molto letterali e parola per parola. Questo perché Translate originariamente utilizzava un approccio statistico per creare i risultati, afferma Apu Shah, ingegnere di Google Translate. E questo non era ideale per comprendere parole come gli omonimi. Ad esempio, supponiamo volessi tradurre la parola “VoAGI” dall’inglese allo spagnolo. Utilizzando l’approccio statistico, Translate contava quante volte qualsiasi parola spagnola che significasse “VoAGI” compariva nei dati di traduzione pubblicamente disponibili, come dizionari online. Quindi basava il risultato sulla parola più comune. Quindi anche se volevi dire “el médium” perché parlavi di un sensitivo, Translate potrebbe suggerire la parola per qualcosa di dimensioni medie – “medio” – se quella parola compariva di più. “Translate era davvero limitato dai dati disponibili”, dice Apu. “E non riusciva a leggere molto bene la semantica o il contesto”.

Oggi, Google Translate supporta 133 lingue – quando fu lanciato per la prima volta nel 2006, quel numero era più vicino a 60. Con l’aumentare delle lingue supportate, la qualità delle traduzioni è migliorata, afferma Macduff Hughes, direttore dell’ingegneria di Google, che lavora in questo ruolo da quasi 11 anni e ha supervisionato una transizione importante per il prodotto nel 2016 verso un sistema di traduzione basato interamente su reti neurali. Questa transizione ci ha infine portato a traduzioni più accurate e basate sul contesto, come nel nostro esempio del basso contro il basso.

Una schermata del sito web di Google Translate che mostra il prodotto mentre traduce due frasi dall'inglese allo spagnolo. La prima recita 'Sono andato a pescare e ho preso un basso grosso'. La seconda dice 'Sono andato al negozio di chitarre e ho comprato un basso grosso'. Nella casella accanto a questo, entrambe le frasi sono scritte in spagnolo mostrando parole diverse per 'basso'.

Ma c’era ancora margine di miglioramento anche dopo la transizione al sistema basato su reti neurali. “Abbiamo scoperto che Translate poteva generare questi testi che suonavano molto naturali, ma a volte con errori”, dice Macduff. “Potrebbe sembrare o sembrare grammaticalmente corretto, usare un alto livello di vocabolario e avere maiuscole e punteggiatura corretti, creando questa sensazione di credibilità, ma potrebbe ancora essere sbagliato”.

Quindi il team si è concentrato nell’insegnare alla rete neurale a diventare sempre più precisa. “I modelli che utilizziamo oggi sono tre o quattro volte più grandi di quelli che abbiamo lanciato originariamente, e funzionano più velocemente”, afferma Macduff. Il team addestra il modello mostrandogli esempi di materiali tradotti, il che lo aiuta a imparare come rappresentare il linguaggio. Ciò consente a Translate di fornire risultati più sfumati. “Non stiamo cercando solo una rappresentazione parola per parola”, dice Apu. “Cerchiamo il contesto. Hai corso la gara? Il tuo programma è stato eseguito? L’hai esaurito?”

A volte, non c’è semplicemente abbastanza contesto per il sistema di traduzione per scegliere il significato corretto, come nel caso del “basso” precedentemente menzionato. A partire da oggi, Translate rileva questi casi e ti consente di selezionare manualmente il significato desiderato. Questo grazie al nostro ultimo esperimento di intelligenza artificiale generativa, attraverso Search Labs. Se hai scelto di utilizzare la nostra Esperienza Generativa di Ricerca (SGE) negli Stati Uniti e chiedi a Search di tradurre una frase dall’inglese allo spagnolo in cui certe parole potrebbero avere più di un possibile significato, vedrai quelle parole sottolineate. Tocca semplicemente su quelle parole sottolineate e potrai indicare il significato specifico che riflette ciò che desideri dire. Questa opzione potrebbe apparire anche quando è necessario specificare il genere di una particolare parola.

Articolo correlato

Articolo correlato

L’IA generativa nella ricerca, o Search Generative Experience (SGE), si sta espandendo in tutto il mondo e aggiungendo quattro nuove lingue.

Vedi di più

Al di fuori di SGE, se inserisci una di queste parole senza contesto in Traduci in un browser web o la dici ad alta voce quando usi l’app Traduci, ad esempio, l’algoritmo valuterà tutti i risultati potenziali, quindi ti darà opzioni per chiarire cosa intendi. Ad esempio, le opzioni di traduzione per la parola “pipistrello” includono l’animale, l’attrezzatura e l’azione.

Se hai scritto o detto una frase intera che include un omonimo, l’algoritmo analizzerà la frase nel contesto, portandolo a una rappresentazione più accurata del modo in cui stai usando l’omonimo rispetto se si basasse solo sulle statistiche.

“Abbiamo anche lavorato molto sulla selezione dei dati”, dice Macduff. Google collabora con fornitori di dizionari e traduttori di terze parti che raccolgono parole e frasi in diverse lingue e il team studia database pubblici per capire meglio come costruire nuove funzionalità in Traduci. “Abbiamo anche addestrato un modello di linguaggio per riconoscere la differenza tra traduzioni di alta qualità e traduzioni di bassa qualità”, dice Macduff. L’opzione “contribuisci” offre inoltre agli utenti di Google Traduttore la possibilità di aiutare con le traduzioni o offrire correzioni.

Traduci migliorerà sempre di più nella gestione degli omonimi e di altre traduzioni che richiedono contesto nel tempo e il team ritiene importante rimanere agili per farlo. “L’IA sta evolvendo e la potenza dei computer sta evolvendo, ma anche la lingua sta evolvendo”, afferma Apu. Le parole assumono nuovi significati e usi tutto il tempo, come “slay” o “cancel”. Il lavoro tiene il team sulle spine, ma il loro obiettivo principale rimane lo stesso.

“La nostra visione per il futuro è quella di consentire interazioni molto fluide tra le persone”, afferma Apu. “Vogliamo eliminare tutte le barriere alla comunicazione che possiamo, in modo che tutti possano parlare con un’altra persona, indipendentemente dalla lingua che parlano.” O dal tipo di basso di cui stanno parlando.