Quantificare le regressioni nascoste di GPT-4 nel tempo

Quantificare le regressioni di GPT-4 nel tempo

Parte 3 di uno studio sull’uso e il test di intelligenza artificiale generativa

Foto di Randy Fath su Unsplash

GPT-4 è più grande e migliore di GPT-3. GPT-4 può redigere discorsi eloquenti, superare esami standardizzati e persino interpretare immagini. Dal suo rilascio il 14 marzo 2023, OpenAI continua a iterare e aggiornare GPT-4 per migliorare le sue prestazioni per i milioni di interrogazioni che riceve ogni giorno. Tuttavia, l’ultima versione di GPT-4 nell’API di OpenAI, chiamata “gpt-4”, è effettivamente migliore della versione iniziale di marzo, chiamata “gpt-4–0314”?

Dal punto di vista di un ingegnere di machine learning presso Kolena, questo articolo è una continuazione di una serie di discussioni che mettono in evidenza un paradigma di test per LLM, confrontando le prestazioni dei modelli GPT in diversi scenari.

Anche se il comportamento complessivo di “gpt-4” potrebbe essere migliore di “gpt-4–0314” attraverso i risultati di vari benchmark e metriche di test, il termine “migliore” è relativo. Gli utenti hanno condiviso online che hanno riscontrato un recente regresso delle prestazioni del modello GPT-4 in una varietà di contesti. Un esempio virale del regresso di GPT-4 nel tempo è che non riusciva più a capire che 17077 era un numero primo come poteva fare prima.

Naturalmente, utilizzare il modello più aggiornato quando le sue prestazioni soggettive e oggettive diminuiscono continuamente è problematico. Che altre regressioni potrebbero esistere segretamente?

Possiamo testare le regressioni nascoste di GPT-4 utilizzando l’insieme di dati CoQA (Conversational Question Answering)**. L’insieme di dati CoQA contiene vari articoli, ognuno con una serie di domande corrispondenti, in cui la comprensione della domanda n è necessaria per rispondere alla domanda n+1. Prendendo ad esempio un articolo sulla storia dello sport, ecco alcune possibili domande:

1. Chi è l’atleta olimpico più decorato?2. Di quale paese sono?3. Quante medaglie d’oro hanno vinto?

Non è possibile rispondere individualmente a queste domande perché non sapremmo la persona di interesse senza rispondere alla prima domanda.

Risultati

A un livello generale, GPT-4 ha prestazioni significativamente migliori di GPT-3, ma non è ancora perfetto:

+------------+-------------+-------------+-----------+|   modello  | avg_BERT_F1 | avg_ROUGE_1 | n_corrette|+------------+-------------+-------------+-----------+| gpt-4      |     0.92729 |     0.77735 |      4708 || gpt-4–0314 |     0.92497 |     0.77284 |      4718 || gpt-3      |     0.90845 |     0.71676 |      4348 |+------------+-------------+-------------+-----------+

Nota: “gpt-3” è il modello Turbo più recente della serie GPT-3.5, e n_corrette è il conteggio delle domande in cui la media di BERT_F1 e ROUGE_1 è maggiore di 0.75

Dai dati sopra riportati, come mai “gpt-4–0314” è peggiore secondo le metriche (BERT_F1 e ROUGE_1) ma ha risposto correttamente a più domande rispetto a “gpt-4”? Forse entrambi i modelli rispondono in modo errato alle stesse domande, ma non c’è garanzia che i gruppi di fallimento di “gpt-4” e “gpt-4–0314” siano omogenei. Sotto l’assunzione che un modello più recente dovrebbe essere più performante, la ragione di questa differenza o regressione non è spiegabile quando osserviamo le metriche. Possiamo approfondire la comprensione delle potenziali cause radice dei fallimenti quando suddividiamo logicamente i dati in gruppi più piccoli.

Quando stratifichiamo l’insieme di dati CoQA in base alla fonte dei dati di ciascun articolo, scopriremo che i dati di domande-risposte relativi agli articoli di Wikipedia hanno avuto migliori prestazioni nel nuovo modello GPT-4, ma peggiori in generale e in ogni altra fonte di dati.

L’immagine sopra mostra un confronto tra “gpt-4–0314” come benchmark e “gpt-4”, evidenziando le differenze nel numero di risposte corrette generate rispetto a un miglioramento o un declino tra diverse fonti di dati. In termini di numero di risposte corrette, l’unico miglioramento di GPT-4 proviene dai punti dati di Wikipedia, mentre diminuisce le prestazioni ovunque altro.

Analisi

Questo rivela che “gpt-4” è una versione tarata di “gpt-4–0314” sugli articoli di Wikipedia? Purtroppo, non lo sappiamo.

Possiamo quindi dire che GPT-4 è peggiorato? Da questa misura, non necessariamente. Sebbene il mondo accademico consideri Wikipedia una fonte di informazioni non affidabile, molte persone continuano ad utilizzarla regolarmente per informazioni rapide e accessibili. Se OpenAI vuole che GPT risponda a qualsiasi domanda in qualsiasi dominio, avere una comprensione completa di Wikipedia è più prezioso della comprensione degli articoli di notizie quando gli utenti fanno milioni di query casuali ogni giorno. Gli articoli di notizie tendono ad avere temi comuni comunque, e la persona media potrebbe non fare domande a GPT riguardanti articoli di notizie su argomenti assenti in Wikipedia.

Prima di stratificare il dataset secondo le diverse fonti di dati, non c’era una spiegazione concreta del motivo per cui “gpt-4–0314” ottenesse un numero maggiore di risultati corretti rispetto a “gpt-4”. Con una sola stratificazione, otteniamo una spiegazione plausibile del perché e del modo in cui i modelli sono diversi.

Conclusioni

Nel tempo, GPT-4 è regredito nel rispondere a domande conversazionali per molteplici fonti di dati, ma ha migliorato le prestazioni per le query che coinvolgono gli articoli di Wikipedia.

Riuscire a identificare regressioni nascoste dovrebbe essere una priorità per tutti gli ingegneri prima di mettere in produzione i modelli. Trovare regressioni nascoste per LLM non è banale, ma diventa più facile con l’approccio giusto. Il miglior modello non è necessariamente quello con le migliori prestazioni complessive, ma quello con i migliori risultati nei casi che contano di più.

Approfondiremo ulteriormente le stratificazioni di CoQA per comprendere meglio come GPT-4 sia cambiato nel tempo in un futuro articolo del blog. Rimanete sintonizzati!

** Il dataset CoQA contiene dati provenienti da sette diverse fonti di dati con licenze diverse. In questo articolo, non riveliamo alcun dato all’interno del dataset e abbiamo utilizzato solo i dati per test e analisi provenienti da queste fonti di dati commercialmente disponibili: Gutenberg, CNN, MCTest e Wikipedia, con licenza CC BY-SA 4.0, MSR-LA o Apache.