Ricercatori di Stanford e DeepMind hanno avuto l’idea di utilizzare i grandi modelli di linguaggio (LLM) come funzione di ricompensa di sostituzione.

Ricercatori di Stanford e DeepMind hanno utilizzato LLM come funzione di ricompensa di sostituzione.

Con lo sviluppo dell’informatica e dei dati, gli agenti autonomi stanno guadagnando potere. La necessità che gli esseri umani abbiano una certa influenza sulle politiche apprese dagli agenti e di verificare che siano allineate ai propri obiettivi diventa sempre più evidente alla luce di ciò.

Attualmente, gli utenti creano 1) funzioni di ricompensa per azioni desiderate o 2) forniscono dati etichettati estensivi. Entrambe le strategie presentano difficoltà e difficilmente verranno implementate in pratica. Gli agenti sono vulnerabili all’hacking delle ricompense, rendendo difficile progettare funzioni di ricompensa che trovino un equilibrio tra obiettivi concorrenti. Tuttavia, una funzione di ricompensa può essere appresa da esempi annotati. Tuttavia, sono necessarie enormi quantità di dati etichettati per catturare le sottilità dei gusti e degli obiettivi individuali degli utenti, il che si è rivelato costoso. Inoltre, le funzioni di ricompensa devono essere ridisegnate o il dataset deve essere raccolto nuovamente per una nuova popolazione di utenti con obiettivi diversi.

Nuove ricerche dell’Università di Stanford e di DeepMind mirano a progettare un sistema che semplifichi agli utenti la condivisione delle loro preferenze, con un’interfaccia più naturale rispetto alla scrittura di una funzione di ricompensa e un approccio economico per definire tali preferenze utilizzando solo pochi esempi. Il loro lavoro utilizza grandi modelli di linguaggio (LLM) che sono stati allenati su enormi quantità di dati testuali provenienti da Internet e si sono dimostrati abili nell’apprendimento in contesti con pochi o nessun esempio di addestramento. Secondo i ricercatori, gli LLM sono eccellenti apprendisti contestuali perché sono stati addestrati su un dataset sufficientemente ampio da incorporare importanti presupposti di buon senso sul comportamento umano.

I ricercatori indagano su come impiegare un LLM sollecitato come funzione di ricompensa sostitutiva per addestrare agenti RL utilizzando i dati forniti dall’utente finale. Utilizzando un’interfaccia conversazionale, il metodo proposto fa sì che l’utente definisca un obiettivo. Quando si definisce un obiettivo, si possono utilizzare alcuni esempi come “versatilità” o una sola frase se l’argomento è di conoscenza comune. Definiscono una funzione di ricompensa utilizzando il prompt e il LLM per addestrare un agente RL. La traiettoria di un episodio RL e il prompt dell’utente vengono inseriti nel LLM e il punteggio (ad esempio, “No” o “0”) per determinare se la traiettoria soddisfa l’obiettivo dell’utente viene restituito come ricompensa intera per l’agente RL. Uno dei vantaggi dell’utilizzo degli LLM come funzione di ricompensa proxy è che gli utenti possono specificare le loro preferenze in modo intuitivo attraverso il linguaggio anziché dover fornire decine di esempi di comportamenti desiderabili.

Gli utenti segnalano che l’agente proposto è molto più in linea con il loro obiettivo rispetto a un agente addestrato con un obiettivo diverso. Utilizzando la loro conoscenza precedente sugli obiettivi comuni, gli LLM aumentano la proporzione di segnali di ricompensa allineati all’obiettivo generati in risposta a un sollecito a tiro zero in media del 48% per un ordinamento regolare degli esiti del gioco di matrice e del 36% per un ordine casuale. Nel gioco Ultimatum, nel gioco di negoziazione DEALORNODEAL e nei MatrixGames, il team utilizza solo alcuni solleciti per guidare i giocatori nel processo. Nello studio pilota sono stati utilizzati dieci persone effettive.

Un LLM può riconoscere obiettivi comuni e inviare segnali di rinforzo che si allineano con tali obiettivi, anche in una situazione di un solo colpo. Pertanto, gli agenti RL allineati con i loro obiettivi possono essere addestrati utilizzando LLM che rilevano solo uno dei due esiti corretti. Gli agenti RL risultanti sono più propensi ad essere accurati rispetto a quelli addestrati utilizzando etichette perché devono solo apprendere un singolo esito corretto.