Sognare prima, imparare dopo DECKARD è un approccio AI che utilizza LLM per addestrare agenti di apprendimento per rinforzo (RL)

Sognare prima, imparare dopo DECKARD è un approccio AI che utilizza LLM per addestrare agenti RL.

Il reinforcement learning (RL) è un approccio popolare per addestrare agenti autonomi che possono imparare a svolgere compiti complessi interagendo con l’ambiente. RL consente loro di imparare la migliore azione in diverse condizioni e di adattarsi al loro ambiente utilizzando un sistema di ricompense.

Una delle principali sfide nel RL è come esplorare in modo efficiente il vasto spazio degli stati di molti problemi del mondo reale. Questa sfida sorge dal fatto che nel RL, gli agenti imparano interagendo con il loro ambiente attraverso l’esplorazione. Pensa a un agente che cerca di giocare a Minecraft. Se ne hai sentito parlare prima, sai quanto sia complicato l’albero di crafting di Minecraft. Hai centinaia di oggetti craftabili e potresti doverne creare uno per creare un altro, ecc. Quindi, è un ambiente davvero complesso.

Poiché l’ambiente può avere un grande numero di stati e azioni possibili, può diventare difficile per l’agente trovare la politica ottimale solo attraverso l’esplorazione casuale. L’agente deve bilanciare tra sfruttare la politica migliore attuale ed esplorare nuove parti dello spazio degli stati per trovare una potenzialmente migliore politica. Trovare metodi di esplorazione efficienti che possano bilanciare l’esplorazione e lo sfruttamento è un’area attiva di ricerca nel RL.

È noto che i sistemi di decisione pratici devono utilizzare in modo efficiente le conoscenze precedenti su un compito. Avendo informazioni precedenti sul compito stesso, l’agente può adattare meglio la sua politica e evitare di rimanere bloccato in politiche sub-ottimali. Tuttavia, la maggior parte dei metodi di apprendimento per rinforzo attualmente si addestra senza alcun addestramento precedente o conoscenza esterna.

Ma perché è così? Negli ultimi anni, c’è stato un crescente interesse nell’utilizzo di modelli di linguaggio di grandi dimensioni (LLM) per aiutare gli agenti RL nell’esplorazione fornendo conoscenze esterne. Questo approccio ha mostrato promesse, ma ci sono ancora molte sfide da superare, come ancorare le conoscenze LLM nell’ambiente e gestire l’accuratezza delle uscite LLM.

Quindi, dovremmo rinunciare all’uso di LLM per aiutare gli agenti RL? Se no, come possiamo risolvere quei problemi e poi usarli di nuovo per guidare gli agenti RL? La risposta ha un nome, ed è DECKARD.

Panoramica di DECKARD. Fonte: https://arxiv.org/abs/2301.12050

DECKARD è addestrato per Minecraft, poiché creare un oggetto specifico in Minecraft può essere un compito difficile se si manca di conoscenze esperte del gioco. Ciò è stato dimostrato da studi che hanno dimostrato che raggiungere un obiettivo in Minecraft può essere reso più facile attraverso l’uso di ricompense dense o dimostrazioni di esperti. Di conseguenza, la creazione di oggetti in Minecraft è diventata una sfida persistente nel campo dell’IA.

DECKARD utilizza una tecnica di prompting a pochi colpi su un grande modello di linguaggio (LLM) per generare un Modello di Mondo Astratto (AWM) per i sotto-obiettivi. Utilizza il LLM per ipotizzare un AWM, il che significa che sogna il compito e i passaggi per risolverlo. Quindi si sveglia e apprende una politica modulare di sotto-obiettivi che genera durante il sogno. Poiché ciò viene fatto nell’ambiente reale, DECKARD può verificare l’AWM ipotizzato. L’AWM viene corretto durante la fase di risveglio e i nodi scoperti vengono contrassegnati come verificati per essere riutilizzati in futuro.

Gli esperimenti ci mostrano che la guida LLM è essenziale per l’esplorazione in DECKARD, con una versione dell’agente senza guida LLM che impiega più del doppio del tempo per creare la maggior parte degli oggetti durante l’esplorazione a circuito aperto. Quando esplora un compito specifico, DECKARD migliora l’efficienza campionaria di ordini di grandezza rispetto agli agenti comparabili, dimostrando il potenziale di applicare in modo robusto LLM al RL.