Incontra Eureka un algoritmo di progettazione delle ricompense di livello umano alimentato da modelli di linguaggio di ampia portata (LLMs)

Incontra Eureka l'algoritmo di progettazione delle ricompense umane alimentato da ampi modelli di linguaggio (LLMs)

I modelli di linguaggio di grandi dimensioni (LLM) sono ottimi per la pianificazione di alto livello, ma hanno bisogno di aiuto per padroneggiare compiti di basso livello come il pen spinning. Tuttavia, un team di ricercatori provenienti da NVIDIA, UPenn, Caltech e UT Austin ha sviluppato un algoritmo chiamato EUREKA che utilizza LLM avanzati, come GPT-4, per creare funzioni di ricompensa per l’acquisizione di abilità complesse attraverso l’apprendimento per rinforzo. EUREKA supera le ricompense progettate dall’uomo fornendo consigli più sicuri e di alta qualità attraverso l’apprendimento in contesto basato sul feedback umano senza l’utilizzo di gradienti. Questa scoperta apre la strada all’acquisizione di abilità basata su LLM, come dimostrato dall’ombra simulata che padroneggia i trucchi del pen spinning.

L’ingegneria della ricompensa nell’apprendimento per rinforzo presenta delle sfide, con metodi esistenti come il tentativo ed errore manuale e l’apprendimento inverso alla ricerca di una maggiore scalabilità e adattabilità. EUREKA introduce un approccio utilizzando LLM per generare codici di ricompensa interpretabili, migliorando le ricompense in tempo reale. Mentre lavori precedenti hanno esplorato l’utilizzo di LLM per la presa di decisioni, EUREKA è innovativo per la sua applicazione a compiti di apprendimento delle abilità di basso livello, introducendo algoritmi evolutivi con LLM per la progettazione di ricompense senza candidati iniziali o guidance a pochi esempi.

LLM eccellono nella pianificazione di alto livello, ma hanno bisogno di aiuto con abilità di basso livello come il pen spinning. La progettazione della ricompensa nell’apprendimento per rinforzo spesso si basa su metodi di prova ed errore che richiedono molto tempo. Lo studio presenta EUREKA che sfrutta LLM avanzati come GPT-4 per creare funzioni di ricompensa per diverse attività in modo autonomo, superando le ricompense progettate dall’uomo in ambienti diversi. EUREKA permette anche l’apprendimento in contesto a partire dal feedback umano, migliorando la qualità e la sicurezza delle ricompense. Affronta la sfida delle attività manipolative destre difficilmente raggiungibili attraverso l’ingegneria della ricompensa manuale.

EUREKA, un algoritmo supportato da LLM come GPT-4, genera autonomamente funzioni di ricompensa, eccellendo in 29 ambienti di apprendimento per rinforzo. Utilizza l’apprendimento in contesto a partire dal feedback umano (RLHF) per migliorare la qualità e la sicurezza della ricompensa senza aggiornamenti del modello. Le ricompense di EUREKA consentono di addestrare una Shadow Hand simulata nel pen spinning e nella manipolazione rapida della penna. Introduce algoritmi evolutivi con LLM per la progettazione di ricompense, eliminando la necessità di candidati iniziali o suggerimenti limitati, rappresentando un significativo avanzamento nell’apprendimento per rinforzo.

EUREKA supera L2R, mostrando l’espressività nella generazione di ricompense. EUREKA migliora costantemente, con le sue migliori ricompense che superano alla fine i benchmark umani. Crea ricompense uniche debolmente correlate con quelle umane, potenzialmente scoprendo principi di progettazione controintuitivi. La riflessione sulla ricompensa migliora le performance in attività di dimensioni superiori. Insieme all’apprendimento curriculare, EUREKA riesce nelle attività di pen spinning destro utilizzando una Shadow Hand simulata.

EUREKA, un algoritmo di progettazione di ricompense guidato da LLM, raggiunge una generazione di ricompense di livello umano, eccellendo nell’83% delle attività con un miglioramento medio del 52%. La combinazione di LLM con algoritmi evolutivi dimostra un approccio versatile e scalabile per la progettazione di ricompense in problemi sfidanti e aperti. Il successo di EUREKA nel campo della destrezza è evidente nella risoluzione di compiti complessi, come il pen spinning destro, utilizzando l’apprendimento curriculare. La sua adattabilità e gli enormi miglioramenti delle performance sono promettenti per diverse applicazioni di apprendimento per rinforzo e progettazione di ricompense.

Le future direzioni della ricerca includono la valutazione dell’adattabilità e delle performance di EUREKA in ambienti più diversi e complessi e con diverse progettazioni di robot. È essenziale valutarne l’applicabilità nel mondo reale oltre alla simulazione. Esplorare le sinergie con le tecniche di apprendimento per rinforzo, come i metodi basati su modelli o il meta-apprendimento, potrebbe migliorare ulteriormente le capacità di EUREKA. Investigare l’interpretabilità delle funzioni di ricompensa generate da EUREKA è fondamentale per comprendere i processi decisionali sottostanti. Migliorare l’integrazione del feedback umano ed esplorare il potenziale di EUREKA in vari domini oltre alla robotica sono direzioni promettenti.