Questo articolo AI introduce FELM Benchmarking Factuality Evaluation of Large Language Models.

Questa guida introduce il FELM Benchmarking per la valutazione dell'affidabilità dei grandi modelli di linguaggio.

I modelli linguistici di grandi dimensioni (LLM) hanno ottenuto un notevole successo, aprendo la strada a una svolta di paradigma nell’IA generativa attraverso la sollecitazione. Tuttavia, una sfida associata agli LLM è la loro propensione a generare informazioni inaccurate o a creare contenuti falsi, che rappresenta un ostacolo significativo per la loro applicabilità più ampia. Anche gli LLM all’avanguardia come ChatGPT mostrano una vulnerabilità a questo problema.

L’analisi della factualità del testo generato dai Large Language Models (LLM) si sta sviluppando come un’area di ricerca cruciale volta a migliorare l’affidabilità delle prestazioni degli LLM e a avvertire gli utenti di eventuali errori. Tuttavia, gli eva
luatori responsabili della valutazione della factualità necessitano anche di strumenti di valutazione adatti per misurare i progressi e favorire l’avanzamento del loro campo. Purtroppo, questo aspetto della ricerca è rimasto relativamente inesplorato, creando notevoli sfide per gli eva
luatori delle factualità.

Per colmare questa lacuna, gli autori di questo studio introducono un benchmark per la valutazione della factualità dei Large Language Models, chiamato FELM. L’immagine sopra mostra esempi di un sistema di valutazione della factualità, che potrebbe evidenziare le parti di testo con errori di factualità generati dagli LLM, spiegare l’errore e fornire riferimenti per giustificare la decisione. Il benchmark consiste nella raccolta di risposte generate dagli LLM e nell’annotazione delle etichette di factualità in modo dettagliato.

A differenza di studi precedenti che si concentrano principalmente sulla valutazione della factualità delle conoscenze mondiali, come le informazioni tratte da Wikipedia, FELM pone l’accento sulla valutazione della factualità in diversi ambiti, che spaziano dalla conoscenza generale ai contenuti matematici e ragionamento. Per comprendere e identificare eventuali errori nel testo, gli autori esaminano singole parti di testo una per una. Questo li aiuta a individuare esattamente dove potrebbe esserci un errore. Aggiungono inoltre etichette a questi errori, specificando quale tipo di errore sia stato commesso e forniscono collegamenti ad altre informazioni che confermano o confutano ciò che viene detto nel testo.

In seguito, nei loro test, verificano quanto bene diversi programmi informatici che utilizzano grandi modelli linguistici riescano a individuare questi errori nel testo. Testano programmi standard e alcuni che sono migliorati con strumenti aggiuntivi per aiutarli a ragionare e a individuare meglio gli errori. I risultati di questi esperimenti rivelano che, sebbene i meccanismi di recupero possano aiutare nella valutazione della factualità, gli attuali LLM continuano a non riuscire a individuare in modo accurato gli errori di factualità.

Nel complesso, questo approccio non solo fa progredire la nostra comprensione della valutazione della factualità, ma fornisce anche preziosi spunti sull’efficacia di diversi metodi computazionali nel affrontare la sfida di identificare errori di factualità nel testo, contribuendo agli sforzi in corso per migliorare l’affidabilità dei modelli linguistici e delle loro applicazioni.