RLHF Apprendimento per rinforzo dal feedback umano

RLHF Apprendimento per rinforzo tramite feedback umano

Il segreto del successo di ChatGPT: I dati delle istruzioni.

ChatGPT ha affascinato il mondo con le sue impressionanti capacità. Ma come ha acquisito tanta intelligenza?

Recentemente ho parlato con uno dei miei ex colleghi, un ingegnere del software che stimo molto, e ho notato che crede che ChatGPT sia una manifestazione dell’AGI, facendo riferimento alla sua capacità di semplificare argomenti complessi fino al livello di comprensione di un bambino di sei anni come prova. Anche se non sono completamente in disaccordo con lui riguardo alla sua intelligenza irrazionale, mi sono sentito spinto a esprimere i miei pensieri. In questo articolo, vorrei sottolineare che la magia di ChatGPT dipende fortemente dai dati di addestramento.

I dati di istruzione accuratamente selezionati sono la chiave delle capacità simili agli esseri umani di ChatGPT. Cose come spiegare concetti a un bambino di 6 anni, trasformare un curriculum in un profilo LinkedIn, elaborare idee insieme a te, ecc., non sono comparse casualmente, ma sono state deliberate codificate nel modello sotto forma di dati di addestramento.

Come tutti gli altri, questa è la prima volta che mi trovo di fronte alla ricerca chiusa. Fin dai tempi dell’università, tutta la ricerca di punta è stata aperta e sottoposta a revisione tra pari, fino a poco tempo fa. E credo che l’apertura alla fine faccia progredire la scienza più della chiusura.

Se vogliamo eguagliare le prestazioni di ChatGPT attraverso il codice sorgente aperto, ritengo che dobbiamo iniziare a prendere più sul serio i dati di addestramento. Una parte sostanziale dell’efficacia di ChatGPT potrebbe non derivare, ad esempio, da singole architetture di ML, tecniche di affinamento o framework specifici. Ma molto probabilmente proviene dalla portata, scala e qualità dei dati di istruzione.

Per dirla schiettamente, l’affinamento di grandi modelli di linguaggio su dati di istruzione mediocri è uno spreco di calcolo. Diamo uno sguardo a cosa è cambiato nei dati di addestramento e nel paradigma di apprendimento, come stiamo formattando i dati di addestramento in modo diverso e quindi apprendendo in modo diverso rispetto al passato addestramento su larga scala.

Cos’è RLHF?

RLHF sta per Reinforcement Learning from Human Feedback (apprendimento di rinforzo dal feedback umano). Ha due componenti principali:

  1. Apprendimento di rinforzo (RL)
  2. Feedback umano (HF)