LLMs superano il Reinforcement Learning – Incontra SPRING un innovativo framework di prompting per LLMs progettato per consentire una pianificazione e un ragionamento in catena di pensiero in contesto

LLMs superano il Reinforcement Learning - SPRING è un framework innovativo per LLMs che permette pianificazione e ragionamento in catena di pensiero in contesto.

SPRING è una politica basata su LLM che supera gli algoritmi di apprendimento per rinforzo in un ambiente interattivo che richiede pianificazione e ragionamento multi-task.

Un gruppo di ricercatori dell’Università Carnegie Mellon, NVIDIA, Ariel University e Microsoft ha investigato l’uso di Large Language Models (LLM) per la comprensione e il ragionamento con la conoscenza umana nel contesto dei giochi. Propongono un approccio a due fasi chiamato SPRING, che prevede lo studio di un articolo accademico e l’utilizzo di un framework Question-Answer (QA) per giustificare la conoscenza acquisita.

Maggiori dettagli su SPRING

Nella prima fase, gli autori leggono il codice sorgente LaTeX dell’articolo originale di Hafner (2021) per estrarre la conoscenza precedente. Hanno utilizzato un LLM per estrarre informazioni rilevanti, tra cui meccaniche di gioco e comportamenti desiderabili documentati nell’articolo. Hanno poi utilizzato un framework di sintesi QA simile a Wu et al. (2023) per generare un dialogo QA basato sulla conoscenza estratta, consentendo a SPRING di gestire informazioni contestuali diverse.

La seconda fase si concentra sul ragionamento in contesto utilizzando LLM per risolvere giochi complessi. Hanno costruito un grafo aciclico diretto (DAG) come modulo di ragionamento, dove le domande sono nodi e le dipendenze tra le domande sono rappresentate come archi. Ad esempio, la domanda “Per ogni azione, sono soddisfatti i requisiti?” è collegata alla domanda “Quali sono le prime 5 azioni?” all’interno del DAG, stabilendo una dipendenza dalla seconda domanda alla prima.

Le risposte LLM vengono calcolate per ogni nodo/domanda attraversando il DAG in ordine topologico. Il nodo finale nel DAG rappresenta la domanda sulla migliore azione da intraprendere, e la risposta del LLM viene tradotta direttamente in un’azione ambientale.

Esperimenti e risultati

L’Ambiente Crafter, introdotto da Hafner (2021), è un gioco di sopravvivenza open-world con 22 obiettivi organizzati in un albero tecnologico di profondità 7. Il gioco è rappresentato come un mondo a griglia con osservazioni dall’alto e uno spazio di azione discreto composto da 17 opzioni. Le osservazioni forniscono anche informazioni sullo stato corrente dell’inventario del giocatore, tra cui punti vita, cibo, acqua, livelli di riposo e oggetti nell’inventario.

Gli autori hanno confrontato SPRING e popolari metodi di apprendimento per rinforzo sul benchmark di Crafter. Successivamente, sono stati condotti esperimenti e analisi su diversi componenti della loro architettura per esaminare l’impatto di ogni parte sulle capacità di “ragionamento” in contesto del LLM.

Fonte: https://arxiv.org/pdf/2305.15486.pdf

Gli autori hanno confrontato le prestazioni di vari baselines di apprendimento per rinforzo con SPRING e GPT-4, condizionato all’articolo sull’ambiente di Hafner (2021). SPRING supera i precedenti metodi state-of-the-art (SOTA) di gran lunga, ottenendo un miglioramento relativo del 88% nel punteggio di gioco e un miglioramento del 5% nel reward rispetto al miglior metodo di apprendimento per rinforzo di Hafner et al. (2023).

È importante notare che SPRING sfrutta la conoscenza precedente derivante dalla lettura dell’articolo e non richiede alcun passo di addestramento, mentre i metodi di apprendimento per rinforzo di solito richiedono milioni di passi di addestramento.

Fonte: https://arxiv.org/pdf/2305.15486.pdf

La figura sopra rappresenta un grafico dei tassi di sblocco per diverse attività, confrontando SPRING con popolari baselines di apprendimento per rinforzo. SPRING, potenziato dalla conoscenza precedente, supera i metodi di apprendimento per rinforzo di oltre dieci volte su obiettivi come “Fare Piccone di Pietra”, “Fare Spada di Pietra” e “Raccogliere Ferro”, che si trovano più in profondità nell’albero tecnologico (fino a profondità 5) e sono difficili da raggiungere attraverso l’esplorazione casuale.

Inoltre, SPRING si comporta perfettamente su obiettivi come “Mangiare Mucca” e “Raccogliere Bevanda”. Allo stesso tempo, i framework di apprendimento per rinforzo basati su modelli come Dreamer-V3 hanno tassi di sblocco significativamente inferiori (oltre cinque volte inferiori) per “Mangiare Mucca” a causa della difficoltà di raggiungere mucche in movimento attraverso l’esplorazione casuale. È importante notare che SPRING non esegue l’azione “Posiziona Pietra” poiché non è stata discussa come vantaggiosa per l’agente nell’articolo di Hafner (2021), anche se potrebbe essere facilmente raggiunta tramite l’esplorazione casuale.

Limitazioni

Una limitazione nell’utilizzo di un LLM per interagire con l’ambiente è la necessità di riconoscimento degli oggetti e di ancoraggio. Tuttavia, questa limitazione non esiste negli ambienti che forniscono informazioni accurate sugli oggetti, come i giochi contemporanei e i mondi di realtà virtuale. Mentre le strutture visive pre-addestrate hanno difficoltà con i giochi, si comportano ragionevolmente bene in ambienti simili al mondo reale. Gli sviluppi recenti nei modelli visivo-linguistici indicano il potenziale per soluzioni affidabili nella comprensione visivo-linguistica in futuro.

Conclusioni

In sintesi, il framework SPRING dimostra il potenziale dei modelli linguistici (LLM) per la comprensione e la ragionamento dei giochi. Sfruttando le conoscenze precedenti provenienti dagli articoli accademici e utilizzando il ragionamento in catena di pensiero contestuale, SPRING supera i metodi state-of-the-art precedenti nel benchmark Crafter, ottenendo miglioramenti sostanziali nel punteggio e nella ricompensa di gioco. I risultati mettono in evidenza il potere dei LLM in compiti di gioco complessi e suggeriscono che futuri sviluppi nei modelli visivo-linguistici potrebbero affrontare le limitazioni esistenti, aprendo la strada a soluzioni affidabili e generalizzabili.