Questo articolo sull’IA propone di potenziare i LLM pre-addestrati in lingue non inglesi attraverso la costruzione di un’allineamento semantico tra le lingue

Questo articolo propone di potenziare i LLM pre-addestrati in lingue non inglesi attraverso l'allineamento semantico tra le lingue.

Hai mai provato a fare una domanda in una lingua diversa dall’inglese su ChatGPT? Potresti ottenere una risposta strana e non pertinente alla tua richiesta perché questi modelli sono spesso inclini verso la lingua inglese. Non sarebbe più facile se gli LLM funzionassero in qualsiasi lingua?

I ricercatori del National Key Laboratory for Novel Software Technology propongono un LLM pre-addestrato in lingue non inglesi. Le prestazioni usuali degli LLM sono scarse in lingue non inglesi a causa sia del corpus di pre-addestramento sia dei dati di taratura delle istruzioni che sono in inglese. È possibile migliorare tali prestazioni continuando il pre-addestramento con dati monolingui su larga scala.

I ricercatori eseguono la taratura delle istruzioni sugli LLM tramite compiti di traduzione per migliorare la corrispondenza tra due lingue e utilizzano compiti generali trasversali alle lingue per migliorare l’abilità delle istruzioni. Utilizzano LLaMA-7B come loro LLM pre-addestrato e considerano sei lingue simili all’alfabeto inglese. LLaMA sta per Large Language Model Meta AI.

Un x-LLaMA viene ottenuto con dati specifici per ogni lingua, che viene poi confrontato con gli LLM. Questo modello di linguaggio richiede la previsione del token successivo basandosi sulla sequenza del prefisso. È necessario che l’LLM sia addestrato su un corpus su larga scala e dati di traduzione. I dati di traduzione sono una delle risorse più utili per apprendere l’allineamento semantico e le prestazioni di traduzione degli LLM possono essere migliorate utilizzando dati di traduzione annotati da esperti umani per la taratura delle istruzioni.

I ricercatori utilizzano set di dati di traduzione a livello di frase disponibili pubblicamente per costruire i dati delle istruzioni per il compito di traduzione. Ciò rende il loro metodo scalabile, riproducibile ed estendibile a più lingue. Hanno scoperto che disporre il testo non inglese sul lato di destinazione dei dati di traduzione può migliorare le prestazioni degli LLM su compiti non inglesi rispetto a quando si trova sul lato di origine.

I ricercatori hanno utilizzato le prestazioni di traduzione bilingue come parametro per valutare l’allineamento semantico. Hanno scoperto che la scala dei dati delle istruzioni per il compito di traduzione influenza notevolmente l’allineamento. Hanno derivato un’espressione che correla le prestazioni di traduzione e la scala dei dati, che ha una dipendenza logaritmica nella forma esponenziale. Hanno scoperto che una lingua meno simile richiede più dati di traduzione per costruire l’allineamento semantico rispetto alle lingue identiche all’inglese.

Per confrontare x-LLaMA, i ricercatori hanno progettato Alpaca-7B (un LLaMA), che è stato tarato con istruzioni in inglese; Parrot-7B, che è stato tarato con dati di traduzione annotati da umani; e Bayling-7B, che è stato tarato con traduzioni interattive umane. Hanno scoperto che x-LLaMA supera Alpaca-7B del 42,50% in sei lingue non inglesi. L’accuratezza dei compiti non inglesi in x-LLaMA è la stessa dei compiti in inglese in Alpaca-7B.

Infine, ciò dimostra che la taratura delle istruzioni trasversali alle lingue è un modo efficace. Il loro approccio e le loro scoperte illuminano il potenziale per sviluppare LLM più potenti per le lingue non inglesi.