I ricercatori della CMU introducono WebArena un ambiente web realistico e riproducibile con più di 4 app web del mondo reale per il benchmarking di agenti utili.

I ricercatori della CMU introducono WebArena, un ambiente web realistico e riproducibile per il benchmarking di agenti utili, con più di 4 app web del mondo reale.

Dato il potenziale per un aumento dell’efficienza e una maggiore accessibilità, gli agenti autonomi che possono svolgere compiti ordinari tramite istruzioni di linguaggio naturale umano potrebbero integrare considerevolmente le competenze umane. Per sfruttare appieno il potenziale di questi agenti indipendenti, è essenziale comprendere il loro comportamento in un contesto autentico e riproducibile.

Le impostazioni attuali tendono a semplificare eccessivamente problemi complessi. Pertanto, le caratteristiche di molti ambienti sono versioni ridotte delle controparti reali, risultando in una carenza di varietà di lavoro. In altri casi, l’ambiente viene presentato come una risorsa statica, limitando la capacità degli agenti di esplorare solo gli stati memorizzati durante la raccolta dei dati.

Nuove ricerche condotte dalla Carnegie Mellon University e da Inspired Cognition presentano WebArena, un ambiente web simulato con condizioni riproducibili che può essere utilizzato per addestrare agenti autonomi a svolgere determinati compiti. L’ambiente è composto da quattro app web in tempo reale, una per il commercio elettronico, i forum di discussione online, lo sviluppo collaborativo di software e la gestione dei contenuti aziendali. WebArena include anche diversi strumenti utili, tra cui una mappa, una calcolatrice e un blocco note, per facilitare l’esecuzione dei compiti più simile possibile a quella umana. Infine, WebArena è supportato da una ricchezza di materiali supplementari, tra cui guide per l’uso dell’ambiente di sviluppo integrato e siti più specializzati come l’enciclopedia online Wikipedia in inglese. I contenuti di questi siti web sono direttamente tratti dalle loro controparti offline, garantendo che siano accurati e aggiornati. I container Docker con API di tipo gym forniscono servizi di hosting, rendendo WebArena facile da usare e replicabile.

Oltre a WebArena, viene anche rilasciata come open-source una benchmark completamente operativa di 812 compiti futuristici basati sul web. Ogni attività è modellata secondo i modelli di utilizzo del linguaggio astratto generalmente adottati dagli esseri umani e descritta come un obiettivo di linguaggio naturale. Si focalizzano nell’analizzare il funzionamento di queste funzioni. Oltre ad essere più accurata rispetto al confronto delle semplici sequenze di azioni, questa valutazione può tenere conto del fatto che a volte ci sono più percorsi legittimi per lo stesso obiettivo (una situazione comune in compiti sufficientemente complessi).

Il team utilizza questo standard per confrontare le prestazioni di numerosi agenti in grado di eseguire operazioni basate sul web in risposta a comandi di linguaggio naturale. Vengono utilizzati molti metodi diversi per creare questi agenti, da quelli che prevedono i passi successivi in base alle osservazioni correnti e alla storia a quelli che utilizzano metodi più complessi come il ragionamento passo-passo. Potenti modelli di linguaggio esteso (LLM) come GPT-3.5 e GPT-4 creano questi agenti attraverso un approccio di apprendimento in contesto a poche iterazioni. I risultati mostrano che il miglior agente GPT-4 ha ottenuto solo un tasso di successo complessivo del compito del 10,59 percento negli esperimenti. Si ipotizza che la mancanza di capacità chiave dei LLM attuali, tra cui l’esplorazione attiva e il recupero degli errori, sia la causa principale della loro incapacità di completare efficacemente compiti complessi.