Ricercatori del MIT e di Microsoft presentano DoLa una nuova strategia di decodifica dell’IA mirata a ridurre le allucinazioni nei LLM.

Ricercatori del MIT e di Microsoft presentano DoLa, una strategia di decodifica dell'IA per ridurre le allucinazioni nei LLM.

Diverse applicazioni di elaborazione del linguaggio naturale (NLP) hanno tratto grandi benefici dall’utilizzo di modelli linguistici di grandi dimensioni (LLM). Nonostante i LLM siano migliorati in termini di prestazioni e abbiano acquisito capacità aggiuntive grazie alla scalabilità, presentano ancora un problema di “allucinazione” o produzione di informazioni inconsistenti con i fatti del mondo reale rilevati durante la fase di pre-training. Ciò rappresenta un ostacolo significativo all’adozione per applicazioni ad alto rischio (come quelle presenti in contesti clinici e legali), dove la generazione di testo affidabile è essenziale.

L’obiettivo del language modeling basato sulla massima verosimiglianza, che cerca di minimizzare la divergenza KL diretta tra le distribuzioni dei dati e del modello, potrebbe essere la causa delle allucinazioni dei LLM. Tuttavia, questo non è certo. L’LLM potrebbe assegnare una probabilità diversa da zero a frasi che non sono pienamente coerenti con le conoscenze codificate nei dati di addestramento se si perseguisse tale obiettivo.

Dal punto di vista dell’interpretabilità del modello, studi hanno dimostrato che i livelli iniziali dei LLM basati su transformer codificano informazioni “di livello inferiore” (come i tag di parte del discorso). Al contrario, i livelli successivi codificano informazioni più “semantiche”.

Un gruppo di ricercatori del MIT e di Microsoft suggerisce di utilizzare questa codifica modulare della conoscenza per aumentare le conoscenze fattuali degli LLM mediante una strategia di decodifica contrastiva, in cui la verosimiglianza dell’output della parola successiva viene calcolata utilizzando la differenza nei logit di un livello superiore. In questo modo, è possibile rendere gli LLM più ancorati alla realtà e ridurre le allucinazioni, privilegiando le informazioni da livelli più profondi e ridimensionando quelle da livelli intermedi o meno profondi.

Il loro recente lavoro introduce Decoding by Contrasting Layers (DoLa), un nuovo approccio alla decodifica. Il metodo proposto si basa sul miglioramento dell’esposizione delle conoscenze fattuali codificate in un LLM senza recuperare conoscenze esterne o fare ulteriori raffinamenti.

DoLa è stato dimostrato sperimentalmente migliorare l’integrità dei modelli della famiglia LLaMA sia su TruthfulQA che su FACTOR. Per quanto riguarda StrategyQA e GSM8Kcc, ulteriori esperimenti su ragionamento a catena dimostrano il suo potenziale per migliorare il ragionamento fattuale. Infine, i risultati sperimentali sulla produzione di testo senza limiti (valutati con GPT-4) rivelano che DoLa può generare risposte informative e significativamente più factuali che portano a valutazioni superiori rispetto all’approccio di decodifica originale. DoLa è un approccio di decodifica che può essere utilizzato per aumentare l’onestà degli LLM, e i risultati mostrano che aggiunge solo una piccola quantità di tempo al processo di decodifica.

I ricercatori non hanno indagato sulle prestazioni del modello in altri domini, come il seguire le istruzioni o l’apprendere dal feedback umano. Inoltre, anziché sfruttare etichette umane o fonti di informazioni fattuali per il raffinamento, il team si affida a un’architettura e a parametri preesistenti, limitando la portata di possibili miglioramenti. A differenza di alcuni LLM con recupero potenziato, questa tecnica dipende interamente dalle conoscenze preesistenti del modello anziché aggiungere nuove informazioni tramite moduli di recupero esterni. Il team spera che lavori futuri incorporino i componenti sopra descritti con la loro tecnica di decodifica per superare le restrizioni.