Microsoft e i ricercatori di Columbia propongono LLM-AUGMENTER un sistema di intelligenza artificiale che amplia un LLM black-box con un insieme di moduli plug-and-play

Microsoft e i ricercatori di Columbia propongono LLM-AUGMENTER, un sistema di intelligenza artificiale che espande un LLM black-box con moduli plug-and-play.

I modelli linguistici di grandi dimensioni (LLM) come GPT-3 sono ampiamente riconosciuti per la loro capacità di generare testi coerenti e informativi in linguaggio naturale grazie alla loro vasta quantità di conoscenza del mondo. Tuttavia, l’incorporazione di questa conoscenza nei LLM è approssimativa e può portare a distorsioni della memoria, con conseguenti allucinazioni che possono essere dannose per compiti critici. Inoltre, i LLM non possono codificare tutte le informazioni necessarie per alcune applicazioni, rendendoli inadatti per compiti sensibili al tempo come la risposta a domande di notizie. Nonostante siano state proposte varie metodologie per migliorare i LLM utilizzando conoscenze esterne, queste richiedono tipicamente la messa a punto dei parametri dei LLM, il che può essere proibitivamente costoso. Di conseguenza, è necessario disporre di moduli plug-and-play che possano essere aggiunti a un LLM fisso per migliorarne le prestazioni in compiti critici.

Il paper propone un sistema chiamato LLM-AUGMENTER che affronta le sfide dell’applicazione di Large Language Models (LLM) in applicazioni critiche. Il sistema è progettato per potenziare un LLM black-box con moduli plug-and-play per ancorare le sue risposte a conoscenze esterne memorizzate in database specifici del compito. Comprende anche la revisione iterativa delle prompt utilizzando il feedback generato da funzioni di utilità per migliorare il punteggio di factuality delle risposte generate dai LLM. L’efficacia del sistema è stata validata empiricamente in scenari di dialogo orientati al compito e di risposta a domande di dominio aperto, dove riduce significativamente le allucinazioni senza compromettere la fluidità e l’informatività delle reazioni. Il codice sorgente e i modelli del sistema sono disponibili pubblicamente.

Il processo di LLM-Augmenter prevede tre fasi principali. In primo luogo, quando viene fornita una query dell’utente, recupera delle evidenze da fonti di conoscenza esterne come ricerche web o database specifici del compito. È in grado anche di collegare le evidenze grezze recuperate con il contesto pertinente e di ragionare sulla concatenazione per creare “catene di evidenze”. In secondo luogo, LLM-Augmenter invia una richiesta a un LLM fisso come ChatGPT utilizzando le evidenze consolidate per generare una risposta basata sulle evidenze. Infine, LLM-Augmenter controlla la risposta generata e crea un messaggio di feedback corrispondente. Questo messaggio di feedback modifica e itera la query di ChatGPT fino a quando la risposta del candidato soddisfa i requisiti di verifica.

Il lavoro presentato in questo studio dimostra che l’approccio LLM-Augmenter può efficacemente potenziare i LLM black-box con conoscenze esterne pertinenti alle loro interazioni con gli utenti. Questo potenziamento riduce notevolmente il problema delle allucinazioni senza compromettere la fluidità e la qualità informativa delle risposte generate dai LLM.

Le prestazioni di LLM-AUGMENTER sono state valutate su compiti di dialogo finalizzati alla ricerca di informazioni utilizzando sia metriche automatiche che valutazioni umane. Sono state utilizzate metriche comunemente utilizzate, come Knowledge F1 (KF1) e BLEU-4, per valutare la sovrapposizione tra l’output del modello e la risposta umana di riferimento e la sovrapposizione con la conoscenza utilizzata dall’umano come riferimento durante la raccolta dei dati. Inoltre, i ricercatori hanno incluso queste metriche che correlano al meglio con il giudizio umano sui compiti di supporto al cliente DSTC9 e DSTC11. Sono state considerate anche altre metriche, come BLEURT, BERTScore, chrF e BARTScore, in quanto sono tra le metriche di generazione di testo con le migliori prestazioni nel dialogo.