Abilità Emergente Svelata Solo l’AI Matura come GPT-4 può Migliorarsi da sola? Esplorare le Implicazioni della Crescita Autonoma nei Modelli di Linguaggio.

'Le implicazioni della crescita autonoma nei modelli di linguaggio con l'AI matura come GPT-4.'

I ricercatori stanno indagando se, simile ad AlphaGo Zero, dove gli agenti di intelligenza artificiale si sviluppano da soli impegnandosi ripetutamente in giochi competitivi con regole chiaramente definite, molti Large Language Models (LLM) possano migliorarsi a vicenda in un gioco di negoziazione con poco o nessun intervento umano. I risultati di questo studio avranno effetti di vasta portata. Al contrario dell’attuale addestramento LLM avido di dati, potrebbero essere costruiti agenti potenti con poche annotazioni umane se gli agenti possono progredire in modo indipendente. Ciò suggerisce anche agenti potenti con poca supervisione umana, il che è problematico. In questo studio, i ricercatori dell’Università di Edimburgo e dell’Istituto Allen per l’IA invitano due modelli di linguaggio, un cliente e un venditore, a contrattare per un acquisto.

Figura 1: Configurazione del nostro gioco di negoziazione. Invitano due agenti LLM a giocare come venditore e acquirente in un gioco di contrattazione. I loro obiettivi sono di vendere o acquistare il prodotto per un prezzo maggiore o minore. Chiedono a un terzo LLM, un critico di intelligenza artificiale, di dare il giudizio al giocatore con cui vogliamo migliorare dopo un round. Dopo di che, spingono il giocatore a regolare le tattiche di contrattazione alla luce della critica. Continuano a fare questo per diversi round per vedere se i modelli possono diventare sempre migliori.

Il cliente vuole pagare meno per il prodotto, ma il venditore è invitato a venderlo ad un prezzo più alto (Fig. 1). Chiedono a un terzo modello di linguaggio di assumere il ruolo del critico e fornire commenti a un giocatore una volta raggiunto un accordo. Quindi, utilizzando il feedback dell’IA dal LLM critico, giocano di nuovo il gioco e spingono il giocatore a perfezionare il suo approccio. Hanno scelto il gioco di contrattazione perché ha regole esplicite scritte e un obiettivo specifico e quantificabile (un prezzo di contratto più basso / più alto) per la negoziazione tattica. Anche se il gioco sembra inizialmente semplice, richiede competenze di modelli di linguaggio non banali perché il modello deve essere in grado di:

  1. Comprendere chiaramente e rispettare strettamente le regole testuali del gioco di negoziazione.
  2. Corrispondere al feedback testuale fornito dal LLM critico e migliorare iterativamente basandosi su di esso.
  3. Riflettere sulla strategia e il feedback nel lungo termine e migliorare nel corso di più round. 

Nelle loro prove, solo i modelli get-3.5-turbo, get-4 e Claude-v1.3 soddisfano i requisiti di essere in grado di comprendere le regole e le strategie di negoziazione e di essere ben allineati con le istruzioni dell’IA. Di conseguenza, non tutti i modelli che hanno preso in considerazione hanno mostrato tutte queste abilità (Fig. 2). Nelle prime ricerche, hanno anche testato giochi testuali più complessi, come giochi da tavolo e giochi di ruolo basati su testo, ma è risultato più difficile per gli agenti comprendere e rispettare le regole. Il loro metodo è noto come ICL-AIF (In-Context Learning from AI Feedback).

Figura 2: I modelli sono divisi in diverse categorie in base alle abilità necessarie nel nostro gioco (C2 – negoziazione, C3 – feedback IA e C4 – miglioramenti continui). La nostra ricerca rivela che solo i modelli robusti e ben allineati, come gpt-4 e claude-v1.3, possono beneficiare dell’input iterativo dell’IA e svilupparsi costantemente.

Sfruttano i commenti del critico AI e i round precedenti del dialogo come dimostrazioni contestuali. Ciò trasforma lo sviluppo reale del giocatore nei round precedenti e le idee del critico per i cambiamenti in poche indicazioni per il round successivo di contrattazione. Per due motivi, utilizzano l’apprendimento contestuale: (1) il raffinamento dei grandi modelli linguistici con l’apprendimento per rinforzo è proibitivamente costoso e (2) l’apprendimento contestuale è stato recentemente dimostrato essere strettamente correlato alla discesa del gradiente, rendendo le conclusioni che traggono abbastanza probabili da generalizzare quando si raffina il modello (se le risorse lo consentono).

La ricompensa nell’apprendimento per rinforzo dal feedback umano (RLHF) è tipicamente uno scalare, ma nel loro ICL-AIF, il feedback è fornito in linguaggio naturale. Questa è una distinzione importante tra i due approcci. Invece di affidarsi all’interazione umana dopo ogni round, esaminano il feedback dell’AI poiché è più scalabile e può aiutare i modelli a progredire in modo indipendente.

Quando vengono forniti feedback mentre si assumono diverse responsabilità, i modelli rispondono in modo diverso. Migliorare i modelli di ruolo dell’acquirente può essere più difficile dei modelli di ruolo del venditore. Anche se è concepibile che agenti potenti come get-4 si sviluppino costantemente in modo significativo utilizzando la conoscenza passata e il feedback AI iterativo online, cercare di vendere qualcosa per più soldi (o acquistare qualcosa per meno) comporta il rischio di non effettuare alcuna transazione. Dimostrano anche che il modello può impegnarsi in negoziazioni meno verbali ma più deliberate (e in definitiva più efficaci). Nel complesso, prevedono che il loro lavoro rappresenterà un passo importante verso il miglioramento della negoziazione dei modelli linguistici in un ambiente di gioco con feedback AI. Il codice è disponibile su GitHub.