Un modo migliore per valutare LLM

Valutare LLM in modo più efficace

 

Introduzione alla valutazione di LLM

 

I progressi recenti nello sviluppo di LLM hanno reso popolare il loro utilizzo per diverse attività di elaborazione del linguaggio naturale che in passato venivano affrontate con vecchi metodi di apprendimento automatico. I grandi modelli di linguaggio sono in grado di risolvere una varietà di problemi legati al linguaggio, come classificazione, sintesi, recupero delle informazioni, creazione di contenuti, risposta alle domande e mantenimento di una conversazione, tutto utilizzando un solo modello. Ma come sappiamo che stanno facendo un buon lavoro su tutti questi diversi compiti?

L’emergere dei LLM ha evidenziato un problema irrisolto: non abbiamo uno standard affidabile per valutarli. Ciò che rende la valutazione più difficile è che vengono utilizzati per compiti estremamente diversi e non disponiamo di una definizione chiara di cosa sia una buona risposta per ciascun caso d’uso.

Questo articolo discute gli approcci attuali per valutare i LLM e introduce una nuova classifica di LLM che si avvale della valutazione umana migliorando le tecniche di valutazione esistenti.

 

Approcci attuali e classifiche

 

La forma di valutazione iniziale e di solito la più comune è eseguire il modello su diversi set di dati selezionati ed esaminare le sue prestazioni. HuggingFace ha creato una classifica Open LLM in cui i modelli di grandi dimensioni a accesso aperto vengono valutati utilizzando quattro set di dati ben noti (AI2 Reasoning Challenge, HellaSwag, MMLU, TruthfulQA). Ciò corrisponde a una valutazione automatica e verifica la capacità del modello di ottenere informazioni per alcune domande specifiche.

Questo è un esempio di domanda dal set di dati MMLU.

Oggetto: college_medicine

Domanda: Un effetto collaterale atteso della supplementazione di creatina è.

  1. A) debolezza muscolare
  2. B) aumento della massa corporea
  3. C) crampi muscolari
  4. D) perdita di elettroliti

Risposta: (B)

Valutare il modello rispondendo a questo tipo di domanda è una metrica importante e funziona bene per il fact-checking, ma non testa la capacità generativa del modello. Questo è probabilmente il più grande svantaggio di questo metodo di valutazione perché la generazione di testo libero è una delle caratteristiche più importanti dei LLM.

Sembra esserci un consenso nella comunità che per valutare correttamente il modello abbiamo bisogno di una valutazione umana. Questo viene solitamente fatto confrontando le risposte dei diversi modelli.

I valutatori decidono quale risposta è migliore, come si vede nell’esempio sopra, e talvolta quantificano la differenza di qualità delle completamenti della domanda. LMSYS Org ha creato una classifica che utilizza questo tipo di valutazione umana e confronta 17 modelli diversi, riportando il punteggio Elo per ciascun modello.

Poiché la valutazione umana può essere difficile da scalare, sono stati effettuati sforzi per scalare e accelerare il processo di valutazione, risultando in un interessante progetto chiamato AlpacaEval. Qui ogni modello viene confrontato con una baseline (text-davinci-003 fornita da GPT-4) e la valutazione umana viene sostituita dal giudizio di GPT-4. Questo è veloce e scalabile, ma possiamo fidarci del modello per effettuare la valutazione? Dobbiamo essere consapevoli dei pregiudizi del modello. Il progetto ha effettivamente dimostrato che GPT-4 potrebbe favorire risposte più lunghe.

I metodi di valutazione dei LLM stanno continuando a evolversi mentre la comunità dell’IA cerca approcci facili, equi e scalabili. L’ultima novità proviene dal team di Toloka con una nuova classifica per migliorare ulteriormente gli standard di valutazione attuali.

 

Utilizzare gli esseri umani per valutare i LLM – Un nuovo approccio

 

La nuova leaderboard confronta le risposte dei modelli alle sollecitazioni degli utenti del mondo reale che sono categorizzate dalle utili attività di NLP come delineato in questo articolo InstructGPT. Mostra anche il tasso di vittorie complessivo di ciascun modello in tutte le categorie.

  

L’evaluazione utilizzata per questo progetto è simile a quella eseguita in AlpacaEval. I punteggi nella leaderboard rappresentano il tasso di vittorie del modello rispetto al modello Guanaco 13B, che serve qui come confronto di riferimento. La scelta di Guanaco 13B rappresenta un miglioramento rispetto al metodo AlpacaEval, che utilizza il modello text-davinci-003, presto obsoleto, come riferimento.

La valutazione effettiva è effettuata da esperti umani annotatori su un insieme di sollecitazioni del mondo reale. Per ciascuna sollecitazione, agli annotatori vengono fornite due completamenti e viene chiesto quale preferiscano. Puoi trovare i dettagli sulla metodologia qui.

Questo tipo di valutazione umana è più utile di qualsiasi altro metodo di valutazione automatica e dovrebbe migliorare la valutazione umana utilizzata per la leaderboard LMSYS. Lo svantaggio del metodo LMSYS è che chiunque abbia il link può partecipare alla valutazione, sollevando gravi questioni sulla qualità dei dati raccolti in questo modo. Un gruppo chiuso di annotatori esperti ha una maggiore potenzialità per risultati affidabili e Toloka applica tecniche addizionali di controllo qualità per garantire la qualità dei dati.

 

Riepilogo

 

In questo articolo abbiamo presentato una nuova soluzione promettente per valutare LLM – la Toloka Leaderboard. L’approccio è innovativo, combina i punti di forza dei metodi esistenti, aggiunge una grana specifica del compito e utilizza tecniche affidabili di annotazione umana per confrontare i modelli.

Esplora la board e condividi le tue opinioni e suggerimenti per miglioramenti con noi.  

[Magdalena Konkiewicz](https://www.aboutdatablog.com/about) è un’evangelista dei dati presso Toloka, un’azienda globale che supporta lo sviluppo rapido e scalabile dell’IA. Ha conseguito una laurea magistrale in Intelligenza Artificiale presso l’Università di Edimburgo e ha lavorato come ingegnere, sviluppatore e scienziato dei dati per aziende in Europa e America. È anche coinvolta nell’insegnamento e nella mentorship dei Data Scientist e contribuisce regolarmente a pubblicazioni sulle scienze dei dati e sull’apprendimento automatico.