I ricercatori di Salesforce AI presentano l’evoluzione degli agenti autonomi potenziati da LLM e la strategia innovativa BOLAA.

I ricercatori di Salesforce AI presentano l'evoluzione degli agenti autonomi potenziati da LLM e la strategia innovativa BOLAA.

Le recenti realizzazioni di modelli di linguaggio di grandi dimensioni (LLM) incoraggiano nuove ricerche sull’utilizzo di LLM per gestire varie complesse attività, con particolare attenzione agli Agenti Autonomi potenziati da LLM (LAAs). Estendendo l’intelligenza di LLM all’esecuzione sequenziale delle azioni, LAA dimostra la sua supremazia nell’interagire con l’ambiente e nel gestire problemi complessi attraverso la raccolta di dati. BabyAGI1 suggerisce un sistema di gestione delle attività alimentato da intelligenza artificiale che utilizza OpenAI LLM2 per generare, prioritizzare e svolgere le attività. Un altro framework LAA open-source molto apprezzato che consente chiamate API a LLM è AutoGPT3.

ReAct è una recente tecnica LAA che interagisce con l’ambiente prima di generare le azioni successive. Un framework open-source attuale per la creazione di LAA si chiama Langchain4. LAA non è stata ancora approfonditamente studiata a causa dell’indagine originale. La migliore architettura dell’agente deve ancora essere identificata per iniziare. Per far sì che LLM impari a creare l’azione successiva attraverso l’apprendimento in contesto, ReAct stimola gli agenti con esempi già predefiniti. Inoltre, ReAct sostiene che un agente dovrebbe impegnarsi in un pensiero intermedio prima di eseguire un’azione. ReWOO introduce processi di pianificazione aggiuntivi per LAA.

Langchain generalizza l’agente ReAct con la capacità di utilizzare strumenti a zero-shot. La migliore progettazione dell’agente dovrebbe essere in linea con le attività e la corrispondente struttura di base LLM, aspetto meno trattato nella ricerca precedente. In secondo luogo, è necessario completare la conoscenza dell’efficacia degli attuali LLM in LAA. Solo poche prestazioni delle strutture di base LLM sono confrontate nei primi articoli. ReAct utilizza PaLM come principale LLM. ReWOO utilizza il modello OpenAI text-DaVinci-003 per la pianificazione dell’agente e la personalizzazione delle istruzioni. Per un agente web generalista, MIND2Web confronta Flan-T5 con OpenAI GPT3.5/4.

Tuttavia, solo poche ricerche recenti contrastano approfonditamente l’efficacia di LAA con diversi LLM pre-addestrati. Un articolo relativamente recente ha appena pubblicato una linea guida per valutare LLM come agenti. Tuttavia, devono considerare le architetture degli agenti e le loro strutture di base LLM congiuntamente. La ricerca LAA è avanzata scegliendo i migliori LLM sia dal punto di vista dell’efficacia che dell’efficienza. In terzo luogo, man mano che le attività diventano più complesse, potrebbero essere necessari numerosi agenti da coordinare. Recentemente, ReWOO ha scoperto che separare il ragionamento dall’osservazione aumenta l’efficacia di LAA.

In questo studio, i ricercatori di Salesforce Research sostengono che sia preferibile coordinare diversi agenti per svolgere un singolo compito man mano che la complessità delle attività aumenta, specialmente in situazioni di dominio aperto. Ad esempio, per l’attività di navigazione online, potrebbero utilizzare un agente di clic per interagire con i pulsanti cliccabili mentre richiedono a un agente di ricerca di trovare altre risorse. Tuttavia, pochi articoli esaminano gli effetti dell’orchestrazione ed esplorano modi per coordinare molte persone. Questo rapporto suggerisce un’ampia analisi del confronto delle prestazioni di LAA per colmare queste lacune di ricerca. Approfondiscono ulteriormente le architetture degli agenti e le strutture di base LLM delle LAAs.

Creano benchmark di agenti dalle impostazioni già esistenti per valutare il funzionamento di diverse architetture di agenti basate su diverse strutture di base LLM. Poiché i compiti nei loro benchmark di agenti sono collegati a diversi livelli di complessità delle attività, è possibile esaminare le prestazioni degli agenti in relazione alla complessità delle attività. Queste architetture degli agenti sono create per convalidare in modo approfondito le decisioni di progettazione attuali. Per consentire la selezione e la comunicazione tra diversi LAAs di lavoro, presentano una particolare architettura LAA chiamata BOLAA5 che dispone di un modulo di controllo in cima a numerosi agenti cooperanti.

Le contribuzioni del documento sono le seguenti:

• Sono state sviluppate sei diverse architetture di agenti LAA. Per supportare l’intuizione progettuale di LAA derivata da sollecitazioni, auto-pensiero e pianificazione, le integrano con diverse strutture di base LLM. Creano anche BOLAA per l’orchestrazione di strategie multi-agente, che migliora la capacità degli agenti solitari di interagire con le azioni.

• Svolgono studi approfonditi sugli ambienti per attività di ragionamento delle conoscenze e navigazione online per la presa di decisioni. Forniscono le prestazioni come ricompense finali sparse e ricordi intermedi, che forniscono raccomandazioni qualitative per la scelta migliore di LAA e strutture di base LLM adatte.

• Rispetto ai design alternativi di LAA, BOLAA produce in modo coerente le migliori prestazioni nell’ambiente WebShop. Le loro conclusioni mettono in luce l’importanza dello sviluppo di agenti specializzati per lavorare insieme nella risoluzione di problemi complessi, che dovrebbe essere altrettanto significativo dello sviluppo di un LLM di grandi dimensioni con forti capacità di generalizzazione.