La matematica (molto) semplice può informare RLHF per modelli di linguaggio di grandi dimensioni (LLMs)? Questo articolo AI dice di sì!

Matematica semplice può informare RLHF per LLMs? Articolo AI dice sì!

Integrare l’input umano è un componente chiave dei recenti miglioramenti impressionanti nelle capacità dei grandi modelli di linguaggio (LLM), come ChatGPT e GPT-4. Per utilizzare in modo efficace il feedback umano, è necessario prima addestrare un modello di ricompensa che incorpori preferenze umane, valori e questioni etiche. I LLM vengono quindi regolati utilizzando l’apprendimento per rinforzo sotto la direzione del modello di ricompensa. Questa procedura, nota anche come apprendimento per rinforzo dal feedback umano (RLHF), coordina con successo i LLM con lo scopo umano, migliorando significativamente la qualità della comunicazione interpersonale.

Non è facile creare un sistema di ricompensa funzionale e basato sulle preferenze umane. Diventa molto difficile quando un etichettatore umano non riesce a fornire un voto numerico a una risposta o a un completamento specifico. Invece, i confronti a coppie dei completamenti in termini di qualità sono molto più semplici per le persone da fare, e questo approccio è stato utilizzato nella creazione di InstructGPT. In particolare, un etichettatore umano ordina i completamenti dalla qualità percepita più alta a quella più bassa dopo aver mostrato molti completamenti prodotti dai LLM per lo stesso prompt.

Le risposte vengono quindi ricompensate in base a un modello di ricompensa sviluppato dopo aver addestrato una rete neurale a corrispondere il più possibile alle classifiche delle preferenze umane. Nonostante alcuni vantaggi, come l’eliminazione dei problemi di calibrazione, le classifiche non riflettono adeguatamente le diverse distribuzioni di ricompensa di più prompt. Questo perché non è chiaro quanto sia migliore un completamento rispetto a un altro quando è classificato più in alto. Poiché alcuni prompt RLHF sono aperti o, in altre parole, dipendenti dalla storia dell’utente, la distribuzione delle ricompense potrebbe variare su un’ampia gamma; quindi, questa preoccupazione è particolarmente rilevante.

Al contrario, alcuni prompt sono chiusi, producendo risposte che dovrebbero ricevere un punteggio alto o basso, e quindi una distribuzione delle ricompense approssimativamente a due punti. Esempi del primo tipo di prompt includono “Dimostra il teorema di Pitagora” e “Il pollo è un dinosauro.” Esempi del secondo tipo includono “dimostra il teorema di Pitagora” e “scrivi una breve storia su come sarà l’IA tra 100 anni.” Il modello di incentivi potrebbe solo aiutare i LLM a misurare correttamente l’incertezza se considerano le sfumature di segnali diversi.

Ricercatori dell’Università di Stanford, dell’Università di Princeton e dell’Università della Pennsylvania documentano un fenomeno inaspettato che mostra come addestrare un modello di ricompensa sui ranking di preferenza possa fornire la stessa distribuzione di ricompensa indipendentemente dai prompt. Questo evento, che avviene durante l’ultima fase di addestramento, è noto come collasso della ricompensa. È interessante notare che prima che questo evento fosse dimostrato empiricamente, la loro analisi teorica lo aveva previsto. Dimostrano che un programma di ottimizzazione semplice o ancora più semplicemente, un’espressione in forma chiusa può essere utilizzata per inferire numericamente la distribuzione della ricompensa di collasso. La loro previsione del collasso della ricompensa è in accordo molto buono con i risultati empirici.

La loro seconda grande contribuzione è l’introduzione di una strategia basata su principi per prevenire il collasso della ricompensa utilizzando i dati dello stesso programma di ottimizzazione che ha contribuito a prevederne l’occorrenza. Il collasso della ricompensa è indesiderabile perché ignora le sottili distinzioni tra i diversi prompt e potrebbe portare alla miscalibrazione della scelta umana quando i LLM vengono addestrati utilizzando l’apprendimento per rinforzo e il modello di ricompensa. La terminazione anticipata dell’addestramento del modello di ricompensa è una soluzione semplice a questo problema, ma è piuttosto arbitraria e può essere difficile decidere quando terminare.

In sostanza, suggeriscono di addestrare il modello di ricompensa con diverse funzioni di utilità basate sui prompt, in modo che la distribuzione della ricompensa risultante possa essere sia ampiamente dispersa che strettamente concentrata, a seconda che il prompt sia aperto o chiuso. Questa tecnica consapevole del prompt ha il vantaggio evidente di un’analisi analitica, consentendo una personalizzazione completa della struttura della distribuzione delle ricompense secondo necessità. I loro risultati dimostrano che il collasso della ricompensa può essere significativamente ridotto utilizzando questa tecnica consapevole del prompt.