Questa AI Paper ha mosse Come i modelli di linguaggio si adattano all’apprendimento attraverso il rinforzo offline con i passi di danza di ‘LaMo’ e l’apprendimento a poche prove

Questa IA Paper si muove come i modelli di linguaggio si adattano all'apprendimento attraverso il rinforzo offline con i passi di danza di 'LaMo' e l'apprendimento a poche prove

I ricercatori introducono Language Models for Motion Control (LaMo), un framework che utilizza Large Language Models (LLMs) per l’apprendimento del rinforzo offline. Sfrutta LLM pre-addestrati per migliorare l’apprendimento delle politiche di RL, impiegando Decision Transformers (DT) inizializzati con LLM e fine-tuning LoRA. LaMo supera i metodi esistenti nelle attività con ricompensa scarsa e riduce il divario tra RL offline basato sul valore e i decision transformers nelle attività con ricompensa densa, eccellendo soprattutto in scenari con campioni di dati limitati.

La ricerca attuale esplora la sinergia tra i transformers, in particolare DT, e LLM per la presa di decisioni nelle attività di RL. LLM ha già dimostrato delle promesse nella decomposizione delle attività ad alto livello e nella generazione di politiche. LaMo è un nuovo framework che sfrutta LLM pre-addestrati per le attività di controllo del movimento, superando i metodi esistenti negli scenari con ricompensa scarsa e riducendo il divario tra RL offline basato sul valore e decision transformers nelle attività con ricompensa densa. Si basa su lavori precedenti come Wiki-RL, mirando a sfruttare meglio i LMs pre-addestrati per RL offline.

L’approccio riconfigura RL come un problema di modellazione di sequenze condizionale. LaMo supera i metodi esistenti combinando LLM con DT e introduce innovazioni come il fine-tuning LoRA, le proiezioni MLP non lineari e la perdita ausiliaria di previsione del linguaggio. Eccelle nelle attività con ricompensa scarsa e riduce il divario di prestazioni tra i metodi basati sul valore e quelli basati su DT negli scenari con ricompensa densa.

Il framework LaMo per il Reinforcement Learning offline incorpora LMs e DT pre-addestrati. Potenzia l’apprendimento delle rappresentazioni con Perceptron Multi-Layer e impiega fine-tuning LoRA con una perdita ausiliaria di previsione del linguaggio per combinare efficacemente le conoscenze dei LMs. Vengono condotti esperimenti estesi su diverse attività e ambienti per valutare le prestazioni in base ai rapporti dei dati, confrontandoli con baselines di RL robusti come CQL, IQL, TD3BC, BC, DT e Wiki-RL.

Il framework LaMo eccelle nelle attività con ricompensa scarsa e densa, superando Decision Transformer e Wiki-RL. Supera diverse baselines di RL resistenti, inclusi CQL, IQL, TD3BC, BC e DT, evitando l’overfitting. La capacità di apprendimento robusta di LaMo, specialmente con dati limitati, trae benefici dal bias induttivo dei LMs pre-addestrati. La valutazione del benchmark D4RL e gli studi di ablazione approfonditi confermano l’efficacia di ogni componente all’interno del framework.

Lo studio richiede un’approfondita esplorazione delle tecniche di apprendimento delle rappresentazioni di alto livello per migliorare la generalizzabilità del fine-tuning completo. Vincoli computazionali limitano l’esame di approcci alternativi come l’addestramento congiunto. L’impatto delle diverse qualità di pre-addestramento dei LMs, oltre al confronto tra GPT-2, modelli pre-addestrati interrotti precocemente e modelli pre-addestrati mescolati casualmente, deve ancora essere affrontato. Sono necessari risultati numerici specifici e metriche delle prestazioni per corroborare le affermazioni sulle prestazioni all’avanguardia e la superiorità delle baselines.

In conclusione, il framework LaMo utilizza LMs pre-addestrati per il controllo del movimento in RL offline, raggiungendo prestazioni superiori nelle attività con ricompensa scarsa rispetto a CQL, IQL, TD3BC e DT. Riduce il divario di prestazioni tra metodi basati sul valore e metodi basati su DT negli studi con ricompensa densa. LaMo eccelle nell’apprendimento con pochi esempi, grazie al bias induttivo dei LMs pre-addestrati. Pur riconoscendo alcune limitazioni, tra cui la competitività di CQL e la perdita ausiliaria di previsione del linguaggio, lo studio mira a ispirare ulteriori esplorazioni di LMs più grandi in RL offline.