Questa ricerca di intelligenza artificiale introduce ‘RAFA’ un quadro di intelligenza artificiale basato su principi per agenti LLM autonomi con efficienza dimostrabile nel campionamento.

Introduzione di RAFA un quadro avanzato di intelligenza artificiale per agenti LLM autonomi che offre efficienza dimostrata nel campionamento

Anche se le capacità di ragionamento di LLM sono eccellenti, è ancora necessario migliorarle per applicare tali capacità in contesti pratici. In particolare, come dimostrare in modo provabile il compimento di un compito con un’interazione minima con il mondo esterno (ad esempio, tramite un metodo di ragionamento interno) è ancora oggetto di congettura.

Per coreografare ragionamento e azione, uno studio condotto dall’Università di Northwestern, l’Università di Tsinghua e l’Università di Hong Kong presenta un quadro morale chiamato “ragione per il futuro, agisci per ora” (RAFA), che fornisce garanzie di rimpianto verificabili. Per essere più precisi, creano un pianificatore di traiettorie a lungo termine (“ragione per il futuro”) che apprende dagli spunti di ragionamento del buffer di memoria.

All’interno di un paradigma di MDP adattativo bayesiano, descrivono formalmente come ragionare e agire con LLM. Ad ogni stadio, l’agente LLM esegue la prima azione della traiettoria pianificata (“agisci per ora”), salva i feedback raccolti nel buffer di memoria e quindi richiama la routine di ragionamento per ripianificare la traiettoria futura in base allo stato attuale.

L’apprendimento e la pianificazione nei processi decisionali di Markov (MDP) bayesiani adattativi sono il principio centrale, che viene poi utilizzato per rappresentare il ragionamento nei LLM come MDP. Allo stesso modo, istruiscono i LLM a imparare una distribuzione posteriore più accurata sull’ambiente sconosciuto consultando il buffer di memoria e progettando una serie di azioni che massimizzeranno una funzione di valore. Quando lo stato dell’ambiente esterno cambia, l’agente LLM richiama nuovamente la routine di ragionamento per tracciare un nuovo percorso di azione. Per mantenere la coerenza nell’apprendimento e nella pianificazione, i ricercatori utilizzano una condizione di commutazione per determinare se utilizzare i dati storici più recenti.

RAFA è stato valutato su diversi benchmark basati su testo, tra cui il Gioco del 24, ALFWorld, BlocksWorld e Tris. RAFA è un sistema AI che utilizza un modello linguistico per effettuare compiti di RL/PL. Ecco riassunti i punti principali.

  • Nel gioco del 24, RAFA determina come ottenere 24 aggiungendo e sottraendo quattro numeri naturali diversi. L’algoritmo tiene traccia della formula più recente e produce la procedura successiva per raggiungere questo obiettivo. In termini di efficienza del campione, RAFA si comporta in modo eccezionale.
  • ALFWorld è un mondo virtuale in cui gli utenti possono eseguire simulazioni di faccende domestiche utilizzando agenti incorporati. RAFA ottiene risultati migliori rispetto ad altri framework concorrenti come AdaPlanner, ReAct e Reflexion.
  • In BlocksWorld, ai giocatori viene chiesto di costruire strutture con blocchi. Rispetto ad altri modelli come Vicuna, RAP e CoT, le percentuali di successo di RAFA sono significativamente più alte.
  • RAFA agisce come “O” in un gioco del Tris contro un modello linguistico che agisce come “X”. La penalità “O” non impedisce a RAFA di competere e persino superare il modello linguistico in alcuni contesti. I ricercatori ritengono che la selezione di una diversa profondità di pianificazione (B = 3 o B = 4) possa migliorare o diminuire l’efficienza del campione.

In conclusione, RAFA è un algoritmo flessibile che eccelle in vari contesti e compiti, dimostrando un’eccezionale efficienza del campione e superando spesso altri framework esistenti.