Incontra FACTOOL un framework agnostico per compiti e domini per la rilevazione di errori di fatto nei testi generati da grandi modelli linguistici (ad esempio, ChatGPT).

Incontra FACTOOL, un framework agnostico per rilevare errori di fatto nei testi generati da modelli linguistici come ChatGPT.

GPT-4 è un esempio di tecnologia di intelligenza artificiale generativa (AI), che combina diverse attività di elaborazione del linguaggio naturale in un unico problema di generazione di sequenze. Con un’efficienza e un’interattività eccezionali, questa architettura unificata consente agli utenti di eseguire varie attività (tra cui la generazione di codice, la risoluzione di problemi matematici e la creazione di pubblicazioni scientifiche) utilizzando un’interfaccia di linguaggio naturale. Tuttavia, un paradigma generativo del genere comporta anche determinate difficoltà particolari. A causa delle limitazioni dei grandi modelli di linguaggio (LLM), il testo generato automaticamente mostra frequentemente errori o divagazioni dalla verità.

I LLM sono inclini a creare informazioni convincenti ma potrebbero aver bisogno di maggior precisione o accuratezza nei loro dati. Questo vincolo limita l’uso dell’IA generativa in diversi settori ad alto rischio, come la sanità, la finanza e il diritto. L’utilità e l’affidabilità del materiale creato devono quindi essere migliorate identificando meticolosamente questi errori. Ad esempio, modelli di verifica potenziati dal recupero per l’assicurazione della qualità, modelli di rilevamento delle allucinazioni per la sintesi del testo e modelli di valutazione basati sull’esecuzione per il codice sono solo alcuni esempi di specifiche attività singole che sono al centro della letteratura attuale sulla rilevazione e mitigazione degli errori fattuali prodotti dai modelli di apprendimento automatico.

Data l’eccezionale flessibilità delle attività e dei domini gestiti dai LLM, queste approcci hanno dimostrato successo nei rispettivi settori. Tuttavia, è anche cruciale avere un framework di rilevazione e verifica più approfondito che sia altrettanto adattabile. Inoltre, il problema della rilevazione della veridicità è spesso sintetizzato nella letteratura attuale come (i) valutare se una dichiarazione è fattualmente accurata data una determinata affermazione o (ii) rilevare se una dichiarazione prodotta è supportata da prove fornite.

Nelle attività di scrittura che gli utenti completano frequentemente quando interagiscono con modelli generativi (come ChatGPT), in cui spesso devono valutare la veridicità di una generazione di lunghezza senza affermazioni esplicite e prove, questa definizione del compito deve essere meglio abbinata. In questo studio, ricercatori dell’Università Jiao Tong di Shanghai, dell’Università Carnegie Mellon, dell’Università della Città di Hong Kong, dell’Università di New York, di Meta AI, dell’Università di Scienza e Tecnologia di Hong Kong e del Laboratorio di Intelligenza Artificiale di Shanghai offrono FACTOOL, un framework agnostico dal punto di vista del compito e del dominio che cerca errori di fatto nei documenti prodotti dai LLM. La capacità di utilizzare strumenti nei LLM è essenziale per la rilevazione della veridicità, come mostrato nella Fig. 1, in cui collegano i concetti di “uso di strumenti” e “rilevazione della veridicità” e spiegano il loro approccio.

Figura 1: Framework per la rilevazione della veridicità con l’ausilio di strumenti.

Per ottenere una prova della veridicità delle informazioni create, FACTOOL utilizza specificamente una varietà di risorse, come la ricerca su Google, Google Scholar, interpreti di codice, Python o addirittura LLM. Inoltre, la loro metodologia utilizza le capacità di pensiero critico dei LLM per valutare la veridicità dei contenuti alla luce dei dati disponibili. Creano un benchmark e conducono esperimenti per quattro compiti:

  • Assicurazione della qualità basata sulla conoscenza
  • Creazione di codice
  • Risoluzione di problemi matematici
  • Scrittura di recensioni scientifiche

Affrontano il compito di identificazione della veridicità e lo ampliano per consentire una revisione più approfondita dei modelli AI generativi più recenti. Per fornire un framework unificato e adattabile per l’identificazione della veridicità in vari domini e attività, integrano “uso di strumenti” e “rilevazione della veridicità”. Secondo la loro analisi della veridicità dei chatbot contemporanei utilizzando FACTOOL, GPT-4 ha la veridicità più alta in praticamente tutte le situazioni. I test di assicurazione della qualità basati sulla conoscenza rivelano che i chatbot attentamente addestrati (Vicuna-13B) hanno una veridicità rispettabile. Tuttavia, faticano con compiti più difficili come la scrittura di recensioni scientifiche e la risoluzione di problemi matematici.