Hai davvero bisogno di Reinforcement Learning (RL) in RLHF? Una nuova ricerca di Stanford propone DPO (Direct Preference Optimization) un semplice paradigma di addestramento per addestrare modelli di linguaggio dalle preferenze senza RL

Hai davvero bisogno di Reinforcement Learning (RL) in RLHF? Una nuova ricerca propone DPO (Direct Preference Optimization), un semplice paradigma di addestramento per modelli di linguaggio senza RL.

Quando addestrati su grandi insiemi di dati, le grandi LM non supervisionate acquisiscono poteri che sorprendono persino i loro creatori. Questi modelli, tuttavia, sono addestrati su informazioni prodotte da persone con una vasta gamma di motivazioni, obiettivi e abilità. Non tutte queste ambizioni e abilità possono essere emulate. È importante selezionare attentamente le risposte e il comportamento desiderati del modello dal suo vasto insieme di informazioni e competenze per creare sistemi affidabili, efficaci e gestibili. 

Senza utilizzare la modellazione esplicita delle ricompense o l’apprendimento per rinforzo, ricercatori dell’Università di Stanford e CZ dimostrano come ottimizzare un modello linguistico per conformarsi ai gusti umani. Il loro lavoro dimostra che l’obiettivo basato su RL impiegato dalle approccio attuali può essere ottimizzato esattamente con un semplice obiettivo di entropia incrociata binaria, semplificando considerevolmente il processo di apprendimento delle preferenze e dimostrando come ciò può essere fatto nella pratica. 

Propongono l’ottimizzazione diretta delle preferenze (DPO). Questo nuovo algoritmo raggiunge implicitamente lo stesso obiettivo degli algoritmi RLHF esistenti (massimizzazione delle ricompense con un vincolo di divergenza di KL) ma è più facile da costruire e addestrare. Mentre l’aggiornamento DPO aumenta intuitivamente il rapporto logaritmico delle risposte preferite rispetto a quelle non preferite, include anche un peso di significatività dinamico per esempio che impedisce al modello di degradarsi.

Come altri algoritmi, DPO valuta la coerenza di una funzione di ricompensa con dati di preferenza empirica utilizzando un modello di preferenza teorica. Mentre gli approcci convenzionali definiscono una perdita di preferenza utilizzando il modello di preferenza per addestrare un modello di ricompensa, DPO addestra invece una politica che massimizza il modello di ricompensa appreso utilizzando un interruttore variabile. Pertanto, DPO può ottimizzare una politica con un semplice obiettivo di entropia incrociata binaria dato un set di dati di preferenze umane sulle risposte del modello senza apprendere esplicitamente una funzione di ricompensa o campionare dalla politica durante l’addestramento. 

Le conclusioni del lavoro dimostrano che DPO è efficace come gli approcci allo stato dell’arte, come PPO-based RLHF, per l’apprendimento basato sulle preferenze su varie attività, tra cui la modulazione del sentimento, la sintesi e il dialogo, con modelli linguistici contenenti fino a 6 miliardi di parametri. Il 58% delle persone preferisce i riassunti di DPO ai riassunti di PPO (valutazioni umane), e il 61% preferisce i riassunti di DPO alle valutazioni umane nel set di test. Sull’Anthropic HH, il 60% delle volte, le risposte a singolo turno dei DPO vengono preferite rispetto alle completamenti selettivi. 

Il team afferma che DPO ha molteplici utilizzi potenziali oltre ad addestrare solo modelli linguistici basati sulle preferenze umane. Ad esempio, può addestrare modelli generativi in varie modalità.

Le valutazioni del modello proposte arrivano fino a 6 miliardi di parametri, ma il team ritiene che ulteriori lavori dovrebbero esplorare l’integrazione di DPO con modelli all’avanguardia con ordini di grandezza di dati in più. I ricercatori hanno anche scoperto che il prompt influisce sulle percentuali di vittoria calcolate da GPT-4. In futuro, pianificano di indagare sui mezzi più efficaci per ottenere opinioni di esperti dalle macchine.