Le LLM sostituiranno i Knowledge Graph? I ricercatori di Meta propongono ‘Head-to-Tail’ un nuovo benchmark per misurare la conoscenza fattuale dei Large Language Models

LLM sostituiranno Knowledge Graph? Ricercatori Meta propongono ‘Head-to-Tail’ benchmark per misurare conoscenza fattuale LLM.

I modelli linguistici di grandi dimensioni hanno raccolto molta apprezzamento per le loro incredibili capacità. Sono in grado di imitare gli esseri umani e generare contenuti proprio come farebbe un umano. I modelli linguistici di grandi dimensioni pre-addestrati (LLM), come ChatGPT e LLaMA, hanno dimostrato capacità sorprendenti nel comprendere il materiale e rispondere a domande frequenti. Diversi studi hanno dimostrato la loro capacità di interiorizzare la conoscenza e rispondere a domande. Anche se i LLM hanno fatto progressi significativi, spesso mancano di una comprensione sofisticata delle sfumature specifiche del dominio e sono inclini a produrre informazioni errate, note come allucinazioni. Ciò mette in evidenza gli ostacoli significativi per migliorare l’accuratezza dei LLM e ridurre l’incidenza di risposte allucinatorie.

La discussione relativa ai LLM si è concentrata principalmente su tre aree principali, che sono la riduzione delle allucinazioni nelle risposte generate dai LLM, il miglioramento dell’accuratezza fattuale dei LLM e la speculazione su se i LLM potrebbero alla fine sostituire i Knowledge Graphs (KG) come mezzo per memorizzare la conoscenza del mondo in un formato simbolico. Recentemente, un team di ricercatori dei Meta Reality Labs ha optato per un approccio fresco per rispondere a queste domande cercando di determinare quanto effettivamente conoscono i LLM.

Nel rispondere alla domanda su quanto ben versati siano i LLM in termini di conoscenza, il team ha discusso due aspetti. In primo luogo, può essere difficile interrogare direttamente la conoscenza contenuta in un LLM all’inizio. Anche se la conoscenza è già incorporata nei parametri del modello, le allucinazioni potrebbero essere causate da una mancanza di conoscenza o da un modello generativo difettoso. Lo studio suggerisce di utilizzare la correttezza come metrica per valutare approssimativamente il grado di conoscenza all’interno di un LLM. Ciò comporta valutare la capacità del modello di rispondere a domande chiare e accurate come “Dove è nato il giocatore di basket Michael Jordan?”. Al LLM viene anche chiesto di fornire risposte concise e di ammettere l’incertezza utilizzando la parola ‘incerto’ quando la sua fiducia è bassa.

In secondo luogo, non esiste un benchmark facilmente accessibile che rifletta accuratamente la diversità degli interessi degli utenti o l’ampiezza delle informazioni nel mondo. Anche i grafi di conoscenza più completi mostrano lacune di conoscenza, specialmente quando si tratta di fatti meno noti. I log delle query dei principali LLM o motori di ricerca non sono disponibili pubblicamente.

Per affrontare tutte le limitazioni, il team ha introdotto un benchmark che hanno creato chiamato “Head-to-Tail”. Questo benchmark consiste in una collezione di 18.000 coppie domanda-risposta (QA) che sono state suddivise in fatti principali, di mezzo e di coda in base alla popolarità dei rispettivi argomenti. Queste categorie riflettono diversi livelli di familiarità pubblica. Il team ha creato un metodo di valutazione automatizzato e un insieme di misure che riflettono da vicino l’ampiezza delle conoscenze che un LLM ha assimilato in modo competente al fine di valutare la conoscenza mantenuta dai LLM.

Il cuore della ricerca è la valutazione di 14 LLM disponibili al pubblico generale. I risultati hanno mostrato che i LLM esistenti devono ancora migliorare significativamente nel perfezionare la loro comprensione dei dati fattuali. Questo è particolarmente vero per le informazioni che rientrano nell’area di mezzo-coda e riguardano organizzazioni meno conosciute.

In conclusione, questa ricerca esamina la conoscenza fattuale dei LLM utilizzando un benchmark proposto di recente e tecniche di valutazione all’avanguardia. Il lavoro offre un contributo sostanziale alla discussione in corso riguardante l’affidabilità e gli sviluppi futuri dei grandi modelli linguistici nell’incorporare informazioni factuali affrontando problemi di ricerca significativi e delineando risultati specifici.