Ricercatori di Microsoft presentano Hydra-RLHF una soluzione a memoria efficiente per l’apprendimento per rinforzo con feedback umano.

Microsoft researchers present Hydra-RLHF, an efficient memory solution for reinforcement learning with human feedback.

Oltre ad essere diventati famosi, i modelli della famiglia ChatGPT, GPT-4 e Llama-2 si sono conquistati gli utenti con la loro versatilità come utili assistenti per vari lavori. L’allineamento del modello utilizzando RLHF e molti altri modelli di base è uno dei fattori della loro efficacia. Addestrare un enorme modello di linguaggio crea una rete con molte conoscenze. Tuttavia, poiché la rete non è istruita a distinguere tra queste informazioni, potrebbe manifestare comportamenti indesiderati e persino causare danni sociali. Cambiando il comportamento del modello, l’allineamento cerca di affrontare questo problema ed è diventato fondamentale nello sviluppo di modelli di base sicuri e gestibili.

Anche se RLHF migliora l’allineamento del modello, ha un uso limitato a causa della sua elevata complessità e dei notevoli requisiti di memoria durante il caricamento e l’addestramento di numerosi modelli durante PPO. È necessario valutare le variazioni di velocità e prestazioni di RLHF perché la sua applicazione è ancora agli inizi. Esaminano la procedura di addestramento e le architetture del modello del comune RLHFPPO per raggiungere questo obiettivo. La loro indagine ha scoperto significative opportunità di riduzione dei costi di memoria/computazione attraverso la condivisione di modelli tra Reference/Reward Models e Actor/Critic Models.

Ricercatori di Microsoft suggeriscono Hydra-PPO per ridurre la quantità di modelli appresi e statici memorizzati in memoria durante PPO alla luce di questi risultati. Questi risparmi di memoria possono essere successivamente utilizzati per migliorare la dimensione del batch di addestramento, riducendo la latenza per campione di PPO fino al 65%, secondo confronti di tempo di esecuzione e prestazioni. Presentano un insieme di miglioramenti di RLHF chiamati Hydra-RLHF. Creano un modello basato su decoder chiamato hydra con due testate lineari:

1) Una testa causale che predice il token che verrà dopo di essa in una sequenza

2) Una testa di modello di ricompensa che fornisce la ricompensa istantanea legata allo stesso input.

I modelli a più testate sono stati ampiamente studiati, in generale, e per quanto riguarda l’apprendimento per rinforzo.

Hanno condotto una ricerca comparativa che valuta l’efficacia di diverse procedure di allineamento del modello misurate da GPT-4. Hanno scoperto che LoRA-PPO ha un allineamento migliore rispetto a FFT, ma è più costoso. Presentano Hydra-RLHF, che combina modelli di riferimento e ricompensa e passa dinamicamente il modulo LoRA corrente durante PPO, come modo per ridurre l’uso della memoria preservando la velocità. HydraRLHF può essere addestrato con una latenza per campione fino al 65% più veloce con la RAM aggiuntiva utilizzando una dimensione del batch maggiore. Grazie a Hydra-RLHF, la comunità può ora utilizzare RLHF per una gamma più ampia di modelli e applicazioni.