Google DeepMind e i ricercatori dell’Università di Tokyo presentano WebAgent un agente guidato da LLM in grado di completare le attività su siti web reali seguendo istruzioni in linguaggio naturale

Google DeepMind e l'Università di Tokyo presentano WebAgent, un agente guidato da LLM in grado di completare attività su siti web reali con istruzioni in linguaggio naturale.

Diverse attività di linguaggio naturale, incluse aritmetica, senso comune, ragionamento logico, compiti di domande e risposte, produzione di testi e persino compiti interattivi di decision-making, possono essere risolti utilizzando modelli di linguaggio di grandi dimensioni (LLM). Sfruttando la capacità di comprensione HTML e il ragionamento a più passaggi, i LLM hanno recentemente mostrato un eccellente successo nella navigazione web autonoma, in cui gli agenti controllano i computer o navigano su Internet per soddisfare le istruzioni di linguaggio naturale date attraverso la sequenza di azioni del computer. L’assenza di uno spazio d’azione predefinito, le osservazioni HTML più lunghe rispetto ai simulatori e la mancanza di conoscenze del dominio HTML nei LLM hanno tutti avuto un impatto negativo sulla navigazione web su siti reali (Figura 1).

Figura 1: Difficoltà con la navigazione web reale. Gli agenti moderni di modelli di linguaggio possono esplorare siti web virtuali in cui controllano operazioni predefinite e ricevono testi HTML semplificati e facili da capire. Navigando invece su siti web reali, dove gli agenti devono affrontare attività a compito aperto e testi HTML lunghi che contengono diversi componenti non rilevanti per il compito, gli agenti dei modelli di linguaggio hanno continuato a fare fatica.

Dato l’alto livello di complessità delle istruzioni e dei siti web reali a compito aperto, non è facile scegliere in anticipo lo spazio d’azione corretto. I più recenti LLM hanno solo talvolta i design ottimali per l’elaborazione di testi HTML, nonostante vari studi abbiano affermato che il raffinamento delle istruzioni o il reinforcement learning a partire da input umani migliora la comprensione HTML e l’accuratezza della navigazione online. La maggior parte dei LLM dà priorità alla generalizzazione ampia del compito e alla scalabilità della dimensione del modello, dando priorità a durate di contesto più brevi rispetto ai tipici token HTML presenti nelle pagine web reali e non adottando approcci precedenti per i documenti strutturati, inclusi l’allineamento testo-XPath e la separazione token testo-HTML.

Anche l’applicazione di allineamenti a livello di token a testi così lunghi sarebbe relativamente economica. Raggruppando le operazioni web canoniche nello spazio del programma, viene offerto WebAgent, un agente autonomo guidato da LLM che può svolgere compiti di navigazione su siti web reali rispettando i comandi umani. Scomponendo le istruzioni di linguaggio naturale in passaggi più piccoli, WebAgent:

  1. Pianifica sottostep per ogni passaggio.
  2. Riassume le pagine HTML lunghe in frammenti rilevanti per il compito basandosi sui sottostep.
  3. Esegue i sottostep e i frammenti HTML su siti web reali.

In questo studio, ricercatori di Google DeepMind e dell’Università di Tokyo combinano due LLM per creare WebAgent: il recentemente creato HTML-T5, un modello di linguaggio pre-addestrato esperto nel dominio, viene utilizzato per la pianificazione del lavoro e la sintesi condizionale HTML. Flan-U-PaLM viene utilizzato per la generazione di codice concreto. Includendo metodi di attenzione locale e globale nell’encoder, HTML-T5 è specializzato per catturare meglio la sintassi e la semantica della struttura delle pagine HTML lunghe. È auto-supervisionato, pre-addestrato su un ampio corpus HTML creato da CommonCrawl1 utilizzando una combinazione di obiettivi di denoising a lungo raggio. Gli agenti guidati da LLM esistenti completano frequentemente compiti di decision-making utilizzando un singolo LLM per avviare vari esempi per ogni compito. Tuttavia, ciò non è sufficiente per compiti reali poiché la loro complessità supera quella dei simulatori.

Secondo valutazioni approfondite, la loro strategia integrata con modelli di linguaggio plug-in aumenta la comprensione HTML e l’ancoraggio e fornisce una maggiore generalizzazione. Ricerche approfondite dimostrano che collegare la pianificazione del compito alla sintesi HTML in modelli di linguaggio specializzati è cruciale per le prestazioni del compito, aumentando il tasso di successo nella navigazione online su siti reali di oltre il 50%. WebAgent supera i singoli LLM nei compiti di comprensione di siti web statici per quanto riguarda l’accuratezza delle domande e risposte e ha prestazioni comparabili rispetto a basi solide. Inoltre, HTML-T5 funziona come un componente chiave per WebAgent e produce autonomamente risultati all’avanguardia per i compiti basati sul web. Nel test MiniWoB++, HTML-T5 supera i modelli di attenzione locale-globale ingenui e le loro variazioni raffinate con istruzioni, ottenendo il 14,9% di successo in più rispetto alla tecnica precedente migliore.

Hanno principalmente contribuito a:

• Forniscono WebAgent, che combina due LLM per la navigazione web pratica. Il modello di linguaggio generalista produce programmi eseguibili, mentre il modello di linguaggio esperto del dominio gestisce la pianificazione e i riassunti HTML.

• Adottando attenzioni locali-globali e pre-training utilizzando una combinazione di denoising a lungo raggio su corpus HTML su larga scala, forniscono HTML-T5, nuovi modelli di linguaggio specifici per HTML.

• Nel sito web reale, HTML-T5 aumenta significativamente i tassi di successo di oltre il 50%, e in MiniWoB++, supera i precedenti agenti LLM del 14,9%.