Ricercatori di Google e dell’Università di Toronto presentano un rivoluzionario agente Zero-Shot per l’apprendimento autonomo e l’esecuzione di compiti in ambienti informatici dal vivo.

Google e l'Università di Toronto introducono un innovativo agente Zero-Shot per l'apprendimento e l'esecuzione autonoma di compiti in ambienti informatici in tempo reale.

Gli ampi modelli di linguaggio (LLMs) per la produzione di azioni in contesti live diversi, come ALFWORLD e ALPHACODE, hanno mostrato promesse negli sforzi precedenti. Esempi includono SAYCAN, REACT, TOOLFORMER e SWIFTSAGE. I LLM sono utilizzati in modo simile per seguire le tracce degli esperti, comprendere i cambiamenti ambientali, pianificare e svolgere attività future e comporre richieste API. Diversi studi, tra cui REFLEXION e SELF-REFINE, hanno dimostrato che eseguire ripetutamente un compito con numerosi round di autoriflessione può migliorare significativamente il completamento del compito. Ai LLM viene chiesto di modificare un piano di esecuzione precedente in base al feedback ambientale. Tali aggiustamenti vengono incorporati nel prompt del generatore di azioni per il round successivo.

MINIWOB++ è stato recentemente utilizzato come banco di prova per valutare le prestazioni dei LLM su carichi di lavoro di calcolo modularizzati. L’uso di esempi di traccia esaustivi del compito per la supervisione diretta (WebGUM), l’auto-supervisione o pochi/molti prompt di attivazione (SYNAPSE) sono metodi standard per imparare un compito. Hanno completato dozzine di lavori informatici con un tasso di completamento del compito superiore al 90%, risolvendo apparentemente il problema del controllo del computer. Tuttavia, la necessità di tracce degli esperti limita la capacità dell’agente di imparare nuovi compiti. Un agente può conoscere e migliorare indipendentemente il suo controllo su un computer senza utilizzare tracce ben scelte come guida? Ricercatori di Google Research e dell’Università di Toronto suggeriscono un agente a zero-shot per rispondere a questa domanda.

Il loro agente è basato su PaLM2, un LLM recente, che utilizza un singolo insieme di prompt di istruzioni per tutte le attività anziché prompt specifici del compito. Inoltre, gli sforzi contemporanei come RCI, ADAPLANNER e SYNAPSE utilizzano rappresentazioni dello schermo che potrebbero includere molto più dati rispetto a quanto viene visualizzato all’utente sullo schermo. Ad esempio, la Fig. 1 illustra gli elementi contenuti nell’HTML che vengono forniti al LLM ma non vengono visualizzati sullo schermo. Arbitrariamente, l’utilizzo di questa nuova conoscenza rende più facile il completamento del compito da parte dell’agente. Tuttavia, in scenari di utilizzo tipici, tali informazioni potrebbero non essere facilmente accessibili e potrebbero limitare l’applicazione dell’agente a livello di diffusione.

Figura 1 mostra visualizzazioni diverse sugli schermi. Fig. 1a-1c mostra il compito dei social media prima e dopo aver premuto il pulsante “altro” (seed=2). L’HTML ha già reso il materiale visibile prima del clic. Fig. 1d-1e: il clic-tab-2 (seed=0) ha un problema simile.

Sono state valutate attentamente 13 attività piuttosto difficili su MINIWOB++ che sono destinate a coprire molte schermate, e hanno scoperto che 5 di esse includevano HTML che conteneva tali informazioni – informazioni su più schermate in un’unica osservazione. Queste sono le contribuzioni che hanno fatto: in primo luogo, rispetto agli studi precedenti, adottano una rappresentazione sintetica dello schermo, che rende l’ambiente di prova più completo e realistico. In secondo luogo, forniscono un semplice ma efficace pianificatore di azioni che, in un solo passaggio, pianifica con precisione le operazioni eseguibili su uno stato. Dimostrano che un approccio “naive” del genere può completare quasi tutti i compiti semplici sul benchmark MINIWOB++ utilizzando le capacità più recenti del LLM.

Per aiutare l’agente a imparare con successo dagli insuccessi esplorativi e avanzare in compiti più difficili, suggeriscono una tecnica di gestione del pensiero sistematica che trae influenza da Reflexion. Il loro agente raggiunge prestazioni equivalenti allo stato dell’arte precedente in poche prove. Secondo la ricerca, il loro agente è il primo design a zero-shot per compiti di controllo del computer di cui sono a conoscenza.