Incontra WebAgent il nuovo LLM di DeepMind che segue le istruzioni e completa compiti sui siti web

Incontra WebAgent, il nuovo LLM di DeepMind per compiti sul web

Il modello combina la comprensione del linguaggio e la navigazione web.

Creato utilizzando Midjourney

Recentemente ho avviato una newsletter educativa focalizzata sull’intelligenza artificiale, che conta già più di 160.000 iscritti. TheSequence è una newsletter orientata al machine learning senza fronzoli (senza hype, senza notizie, ecc.) che si legge in 5 minuti. L’obiettivo è tenerti aggiornato sui progetti di machine learning, gli articoli di ricerca e i concetti. Per favore, dacci un’occhiata iscrivendoti qui di seguito:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per rimanere aggiornato sulle novità nel machine learning, nell’intelligenza artificiale e nei dati…

thesequence.substack.com

L’integrazione tra i grandi modelli di linguaggio (LLM) e i siti web è una delle aree che può sbloccare una nuova ondata di applicazioni potenziate da LLM. I LLM hanno dimostrato una notevole competenza in una vasta gamma di compiti di linguaggio naturale, che vanno dall’aritmetica di base e il ragionamento logico a sfide più complesse come la comprensione del senso comune, il question answering e persino la decisione interattiva. L’aggiunta di queste capacità alla navigazione web porta a una combinazione molto potente. Di recente, Google DeepMind ha presentato Web Agent, un agente autonomo guidato da LLM in grado di navigare siti web reali in base alle istruzioni degli utenti.

L’implementazione del mondo reale della navigazione web ha presentato sfide uniche, tra cui:

(1) l’assenza di uno spazio d’azione predefinito.

(2) la presenza di osservazioni HTML molto più lunghe rispetto ai simulatori.

(3) la mancanza di conoscenze specifiche di dominio sull’HTML all’interno dei LLM.

Questi ostacoli derivano dalla natura illimitata dei siti web del mondo reale e dalla complessità delle istruzioni, che rende difficile definire uno spazio d’azione appropriato in anticipo. Sebbene alcune ricerche abbiano evidenziato il potenziale del fine-tuning delle istruzioni o del reinforcement learning basato sul feedback umano per migliorare la comprensione e l’accuratezza della navigazione HTML, i design dei LLM non sono sempre stati ottimizzati per elaborare in modo efficace i documenti HTML. In particolare, la maggior parte dei LLM ha lunghezze di contesto relativamente brevi, insufficienti per gestire le lunghezze medie dei token presenti nei siti web reali, e potrebbe non adottare tecniche cruciali per affrontare documenti strutturati.

Image Credit: DeepMind

Entra in WebAgent

WebAgent affronta il compito pianificando sotto-istruzioni per ogni passo, riassumendo lunghe pagine HTML in frammenti rilevanti basati su queste sotto-istruzioni ed eseguendo il compito ancorando le sotto-istruzioni e i frammenti HTML in codici Python eseguibili. Per costruire WebAgent, Google DeepMind combina due LLM: “Flan-U-PaLM” per generare codice ancore e “HTML-T5”, un nuovo modello di linguaggio pre-addestrato esperto di dominio responsabile della pianificazione delle attività e della sintesi condizionale dell’HTML. HTML-T5, progettato con un’architettura codificatore-decodificatore, eccelle nel catturare la struttura di lunghe pagine HTML utilizzando meccanismi di attenzione locali e globali ed è pre-addestrato auto-supervisionato su un vasto corpus di dati HTML sintetizzati da CommonCrawl.

Gli agenti guidati da LLM esistenti gestiscono tipicamente compiti di decisione con un singolo LLM, richiedendo diversi esempi per ruolo. Tuttavia, per compiti più complessi del mondo reale, questo approccio è limitato. Le valutazioni comprehensive di Google DeepMind dimostrano che il metodo combinato di WebAgent, integrando modelli di linguaggio plug-in, migliora significativamente la comprensione e l’ancoraggio HTML, portando a una migliore generalizzazione. WebAgent raggiunge un aumento del 50% delle percentuali di successo per la navigazione web del mondo reale e un’analisi dettagliata rivela il ruolo critico dell’accoppiamento della pianificazione delle attività con la sintesi HTML utilizzando modelli di linguaggio specializzati per l’esecuzione di compiti di successo. Inoltre, WebAgent si comporta in modo ammirevole in compiti di comprensione di siti web statici, superando i singoli LLM in termini di accuratezza delle risposte alle domande e competendo con basi solide.

WebAgent di Google DeepMind è una composizione innovativa di due distinti modelli di linguaggio, HTML-T5 e Flan-U-PaLM, che lavorano insieme per consentire compiti efficienti di automazione web che coinvolgono la navigazione e l’elaborazione dei documenti HTML.

Image Credit: DeepMind

HTML-T5, un modello di linguaggio encoder-decoder esperto nel dominio, svolge un ruolo cruciale nella previsione di sottointruzioni per il programma successivo e nella sintesi condizionale di documenti HTML lunghi. Questo modello specializzato trova un equilibrio tra le capacità generali dei modelli di linguaggio come T5, Flan-T5 e Instruct-GPT, che mostrano una navigazione web superiore con una forte comprensione dell’HTML, e i bias induttivi specifici dell’HTML presenti nei modelli di trasformatori precedenti proposti da Guo et al. HTML-T5 sfrutta i meccanismi di attenzione locali e globali nell’encoder per gestire efficacemente la struttura gerarchica degli input HTML. L’attenzione locale si concentra sui token vicini a sinistra e a destra di ciascun elemento nell’HTML, come <input>, <label> o <button>, mentre l’attenzione globale transitoria consente ai token di estendersi oltre il vicinato immediato, dividendo la sequenza di input in blocchi e calcolando i token globali tramite somma e normalizzazione. Questo approccio gerarchico si allinea naturalmente con la struttura dei documenti HTML, in cui gli elementi sono definiti localmente ed integrati globalmente in modo iterativo, come <body>, <form> o <div>. Il modello è pre-addestrato su un corpus HTML di grandi dimensioni estratto da CommonCrawl, utilizzando una miscela di obiettivi di denoising a lungo raggio.

A differenza dell’attenzione densa tradizionalmente utilizzata nei modelli di linguaggio naturale, l’adozione da parte di HTML-T5 dei meccanismi di attenzione locali e globali cattura meglio l’esplicita gerarchia presente nei documenti HTML. Gli elementi foglia in HTML (ad esempio, <input>, <label>, ecc.) vengono elaborati in modo efficace utilizzando l’attenzione locale, mentre gli elementi interni (ad esempio, <body>, <form>, ecc.) vengono compressi nell’attenzione globale transitoria. Questa scelta di progettazione si allinea perfettamente con la sintassi gerarchica dell’HTML, migliorando la capacità del modello di comprendere la struttura e gli attributi degli elementi HTML.

Image Credit: DeepMind

Per implementare HTML-T5, Google DeepMind si basa sull’architettura di base di LongT5, che incorpora un’attenzione densa nel decoder. Questa combinazione di meccanismi di attenzione locali e globali con l’attenzione densa del decoder fornisce una soluzione efficace e completa per gestire documenti HTML nelle attività di automazione web.

I Risultati

Per illustrare le capacità di WebAgent di Google DeepMind, consideriamo l’automazione nel contesto di un sito web immobiliare. In questo scenario, WebAgent rappresenta un flusso potente che comprende la pianificazione, la sintesi e la sintesi di programmi concreti. In questo processo, HTML-T5 prende il comando, utilizzando un approccio iterativo per prevedere sottointruzioni decomposte e frammenti rilevanti per il compito, rappresentati in arancione, analizzando attentamente i documenti HTML, le istruzioni in giallo e le previsioni storiche in verde. Allo stesso tempo, Flan-U-PaLM, attivato dalle sottointruzioni e dai frammenti in arancione, decodifica abilmente programmi Python rappresentati in blu.

Image Credit: DeepMind
Image Credit: DeepMind

I risultati ottenuti da WebAgent sono davvero notevoli, vantando un tasso di successo impressionante del 70% su siti web reali. Questo significativo progresso supera le prestazioni dell’approccio LLM singolo di oltre il 50%. Questo risultato indica che la suddivisione del compito in una sequenza di sottoproblemi, ognuno affrontato da diversi modelli di linguaggio, può migliorare notevolmente il successo complessivo del compito.

Inoltre, Google DeepMind presenta una ricetta innovativa e scalabile per la creazione di modelli di linguaggio specializzati nell’HTML. Questo approccio prevede l’addestramento dei meccanismi di attenzione locali e globali utilizzando una combinazione di obiettivi di denoising a lungo raggio. Lo scopo finale è catturare abilmente le strutture gerarchiche sottostanti i documenti HTML, aprendo la strada a una comprensione migliorata e a una gestione più efficace delle attività legate all’HTML.