Per una valutazione imparziale dei grandi modelli linguistici

Per una valutazione obiettiva dei principali modelli linguistici

Come il fuoriuscire di informazioni durante il benchmark e la contaminazione dei dati compromettono la valutazione degli LLM

Immagine dell'autore. (Con assistenza AI)

“Il nostro nuovo LLM batte GPT in ogni benchmark!”

È sempre più comune sentire affermazioni audaci come questa, poiché l’eccitazione intorno agli LLM è enorme. Ci sono nuovi modelli ogni settimana e attualmente tutti stanno cercando di competere con GPT-4, che è ancora il LLM più potente.

Il benchmarking è una parte fondamentale dell’valutazione dei progressi dei grandi modelli di linguaggio.

I benchmark come MMLU e HellaSwag sono lo standard per valutare i modelli di linguaggio sulle abilità di ragionamento e comprensione. I punteggi forniscono uno snapshot dei progressi, con nuovi risultati all’avanguardia considerati come grandi scoperte. Gli LLM sono di solito valutati in un ambiente di zero-shot, senza allenamento esplicito sull’insieme di test, per valutare le loro capacità generali.

Questo articolo mostra quanto sia facile manipolare i risultati dei benchmark e offre suggerimenti per mantenere l’integrità della valutazione.

I Problemi con i Benchmark

Spesso, i benchmark non riflettono l’utilità in scenari reali. Il nuovo modello di Google, Gemini Ultra, ottiene un punteggio di 90,04% in MMLU. Nonostante questo sia un punteggio impressionante, analizzando più attentamente la metodologia di valutazione si nota che si tratta di CoT@32 (ragionamento a catena con 32 campioni). Significa che abbiamo bisogno di stimolarlo 32 volte per ottenere un’accuratezza del 90%! La maggior parte di noi si aspetta una risposta accurata al primo tentativo, soprattutto quando si interagisce con un chatbot.

Rapporto tecnico di Google Gemini. [1]

Sfortunatamente, questo problema è solo la punta dell’iceberg della valutazione degli LLM.

Nell’apprendimento automatico, i modelli vengono comunemente valutati misurando le loro prestazioni su un insieme di test che non è stato utilizzato durante l’allenamento. Tipicamente, questo processo consente una stima imparziale su come il modello si generalizzerà a nuovi dati.

Il fuoriuscire di informazioni durante il benchmark e la contaminazione dei dati sono due termini che si riferiscono entrambi a un problema preoccupante: quando i dati di test in qualche modo fuoriescono nei dati di pretraining degli LLM, portando a una prestazione sovrastimata. Ciò rende le comparazioni tra gli LLM ingiuste e…