I ricercatori di DeepMind presentano Reinforced Self-Training (ReST) Un algoritmo semplice per allineare gli LLM alle preferenze umane ispirato all’apprendimento per rinforzo (RL) con batch crescente.

I ricercatori di DeepMind presentano Reinforced Self-Training (ReST), un algoritmo ispirato all'apprendimento per rinforzo (RL) per allineare gli LLM alle preferenze umane con un batch crescente.

I modelli linguistici di grandi dimensioni (LLM) sono eccezionali nella produzione di contenuti ben scritti e nella risoluzione di vari problemi linguistici. Questi modelli vengono addestrati utilizzando ampie quantità di testo e calcolo per aumentare la probabilità del token successivo in modo autoregressivo. Tuttavia, ricerche precedenti mostrano che la creazione di testo con alta probabilità corrisponde solo a volte alle preferenze umane in diverse attività. I modelli linguistici possono produrre materiale pericoloso con effetti dannosi se non adeguatamente allineati. Inoltre, l’allineamento dei LLM migliora le prestazioni di altre operazioni successive. Utilizzando le preferenze umane, il reinforcement learning from feedback cerca di risolvere il problema dell’allineamento. 

Un modello di ricompensa viene tipicamente appreso tramite input umani e quindi utilizzato per ottimizzare ulteriormente il LLM utilizzando un obiettivo di reinforcement learning (RL). Le tecniche RLHF utilizzano frequentemente tecniche RL online come PPO e A2C. Durante l’addestramento online è necessario campionare la politica modificata e valutare ripetutamente i campioni utilizzando il modello di ricompensa. Le approcci online sono limitati dal costo computazionale di gestire un flusso costante di nuovi dati, soprattutto quando le dimensioni delle politiche e delle reti di ricompensa aumentano. Inoltre, studi precedenti hanno esaminato la regolarizzazione del modello per affrontare il problema dell'”hacking” a cui sono inclini questi approcci. Come alternativa, gli algoritmi RL offline sono più efficienti dal punto di vista computazionale e meno vulnerabili all’hacking delle ricompense perché apprendono da un dataset predefinito di campioni. 

Tuttavia, le caratteristiche del dataset offline sono strettamente legate alla qualità della politica appresa offline. Per questo motivo, dataset ben selezionati sono fondamentali per il successo del RL offline. In caso contrario, i miglioramenti delle prestazioni rispetto all’apprendimento supervisionato possono essere modesti. Inoltre, viene presentata una tecnica nota come DPO (Direct Preference Optimisation), che può utilizzare dati offline per allineare un LM alle preferenze umane. I ricercatori di Google presentano il problema dell’allineamento dei modelli linguistici come un problema crescente di RL a batch e la loro tecnica Reinforced Self-Training (ReST) è composta da due cicli: il ciclo interno (Improve) migliora la politica su un dataset specifico, mentre il ciclo esterno (Grow) espande il dataset prendendo campioni dalla politica più recente (vedi Figura 1). 

Figura 1: Approccio ReST. Una politica crea un dataset nella fase Grow. Il dataset filtrato viene utilizzato per ottimizzare ulteriormente la politica nella fase Improve. Per ammortizzare il costo di creazione del dataset, la fase Improve viene eseguita più frequentemente rispetto alle altre due fasi.

Le fasi di ReST sono le seguenti dopo aver considerato il conditional language modeling in questo lavoro: 1. Grow (G): Per integrare il dataset di addestramento, vengono prodotte numerose previsioni di output per ogni scenario utilizzando la politica del modello linguistico (inizialmente una politica supervisionata). 2. Enhance (I): Vengono classificati e filtrati il dataset arricchito utilizzando una formula di punteggio. Come funzione di punteggio nei loro studi, utilizzano un modello di ricompensa appreso sulle preferenze dei consumatori. Il dataset filtrato regola il modello linguistico utilizzando un obiettivo RL offline. Questo processo viene ripetuto aumentando la soglia di filtraggio. La successiva fase Grow utilizza la politica finale. ReST è un approccio generale che consente di utilizzare diverse perdite RL offline nel ciclo interno durante l’esecuzione delle fasi Improve. 

Per essere messo in pratica, richiede semplicemente la capacità di 1) campionare in modo efficace da un modello e 2) valutare i campioni del modello. ReST presenta diversi vantaggi rispetto all’approccio standard RLHF che utilizza RL online o offline: 

• L’output della fase Grow viene utilizzato in più fasi Improve, riducendo notevolmente il costo computazionale rispetto a RL online. 

• Poiché i nuovi dati di addestramento vengono campionati da una politica migliorata durante la fase Grow, la qualità della politica non è limitata dalla qualità del dataset originale (a differenza del RL offline). 

• È semplice ispezionare la qualità dei dati e potenzialmente diagnosticare problemi di allineamento, come il “reward hacking”, poiché le fasi di Crescita e Miglioramento sono disaccoppiate.

• Ci sono pochi iperparametri da regolare e la tecnica è semplice e affidabile.

La traduzione automatica è un problema di apprendimento sequenza-sequenza tipicamente espresso come modellizzazione condizionale del linguaggio, con una frase in una lingua straniera che funge da contesto condizionale (fonte). Scelgono la traduzione automatica perché (a) è un’applicazione utile con basi solide e un chiaro processo di valutazione e (b) diversi metodi affidabili di punteggio e valutazione attuali possono essere utilizzati come modello di ricompensa. Confrontano diversi algoritmi di RL offline nei loro studi sui benchmark IWSLT 2014 e WMT 2020, nonché su benchmark interni più sfidanti e ad alta fedeltà nel dominio web. ReST aumenta notevolmente i risultati dei modelli di ricompensa sui set di test e di convalida nei loro esperimenti. Secondo i valutatori umani, ReST produce traduzioni di migliore qualità rispetto a una baseline di apprendimento supervisionato.