Incontra BOSS un framework di apprendimento per rinforzo (RL) che addestra agenti a risolvere nuovi compiti in nuovi ambienti con la guida di LLM

Incontra BOSS il framework di apprendimento per rinforzo (RL) che addestra agenti a risolvere nuovi compiti in nuovi ambienti, guidati dalla potenza di LLM

Presentiamo BOSS (Bootstrappping your own SkillS): un approccio rivoluzionario che sfrutta grandi modelli di linguaggio per creare autonomamente una libreria di competenze versatile per affrontare compiti complessi con una guida minima. Rispetto alle tecniche convenzionali di acquisizione di competenze non supervisionate e ai metodi di bootstrap semplicistici, BOSS si comporta meglio nell’esecuzione di compiti sconosciuti in ambienti nuovi. Questa innovazione segna un significativo salto nell’acquisizione e nell’applicazione autonoma delle competenze.

Il reinforcement learning cerca di ottimizzare le politiche nei processi decisionali di Markov per massimizzare i rendimenti attesi. La ricerca di RL preaddestrava competenze riutilizzabili per compiti complessi. RL non supervisionato, concentrandosi sulla curiosità, la controllabilità e la diversità, ha appreso competenze senza il contributo umano. Il linguaggio è stato utilizzato per la parametrizzazione delle competenze e la pianificazione a circuito aperto. BOSS estende i repertori di competenze con grandi modelli di linguaggio, guidando l’esplorazione e premiando il completamento delle catene di competenze, ottenendo un tasso di successo più elevato nell’esecuzione di compiti a lungo termine.

L’apprendimento tradizionale dei robot si basa molto sulla supervisione, mentre gli esseri umani eccellono nell’apprendimento di compiti complessi in modo indipendente. I ricercatori hanno introdotto BOSS come framework per acquisire autonomamente competenze a lungo termine diverse con un intervento umano minimo. Attraverso il bootstrap delle competenze e guidato da grandi modelli di linguaggio (LLM), BOSS costruisce e combina progressivamente competenze per affrontare compiti complessi. Le interazioni non supervisionate con l’ambiente migliorano la robustezza delle sue politiche per risolvere compiti impegnativi in nuovi ambienti.

BOSS introduce un framework a due fasi. Nella prima fase, acquisisce un set di competenze fondamentali utilizzando obiettivi di RL non supervisionati. La seconda fase, il bootstrap delle competenze, utilizza i LLM per guidare la concatenazione delle competenze e le ricompense basate sul completamento delle competenze. Questo approccio consente agli agenti di costruire comportamenti complessi a partire da competenze di base. Gli esperimenti in ambienti domestici mostrano che il bootstrap guidato da LLM supera il bootstrap ingenuo e i metodi non supervisionati precedenti nell’esecuzione di compiti sconosciuti a lungo termine in nuovi contesti.

I risultati sperimentali confermano che BOSS, guidato da LLM, eccelle nella risoluzione di compiti complessi in ambienti domestici nuovi, superando la pianificazione basata su LLM e i metodi di esplorazione non supervisionati precedenti. I risultati presentano le medie interquartili e le deviazioni standard dei rendimenti normalizzati di oracle e delle percentuali di successo normalizzate di oracle per compiti di lunghezza variabile nelle valutazioni di ALFRED. Gli agenti addestrati con il bootstrap guidato da LLM superano quelli del bootstrap ingenuo e i metodi non supervisionati precedenti. BOSS può acquisire autonomamente comportamenti complessi e diversi dalle competenze di base, mostrando il suo potenziale per l’acquisizione di competenze di robot senza esperti.

Il framework BOSS, guidato da LLM, eccelle nella risoluzione autonoma di compiti complessi senza una guida esperta. Gli agenti addestrati con bootstrap guidato da LLM superano il bootstrap ingenuo e i metodi non supervisionati precedenti nell’esecuzione di funzioni sconosciute in nuovi ambienti. Gli esperimenti realistici in ambienti domestici confermano l’efficacia di BOSS nell’acquisizione di comportamenti complessi e diversi dalle competenze di base, enfatizzando il suo potenziale per l’acquisizione autonoma di competenze robotiche. BOSS dimostra anche delle promesse nella connessione tra il reinforcement learning e la comprensione del linguaggio naturale, utilizzando modelli di linguaggio preaddestrati per l’apprendimento guidato.

Le future direzioni di ricerca possono includere:

  • Investigare l’apprendimento autonomo delle competenze senza reset in RL.
  • Proporre un approccio di suddivisione dei compiti a lungo termine con l’approccio di concatenazione delle competenze di BOSS.
  • Ampliare RL non supervisionato per l’acquisizione di competenze a basso livello.

Un migliore integrazione del reinforcement learning con la comprensione del linguaggio naturale nel framework BOSS è anche un’avenue promettente. Applicare BOSS a diversi domini e valutare le sue performance in vari ambienti e contesti di compiti offre potenzialità per ulteriori approfondimenti.