Ricercatori dell’UC Berkeley presentano Dynalang un agente di intelligenza artificiale che apprende un modello di mondo multimodale per prevedere rappresentazioni future di testo e immagini e impara ad agire tramite simulazioni immaginate del modello.

Ricercatori UC Berkeley presentano Dynalang, un agente di intelligenza artificiale che apprende un modello multimodale per prevedere rappresentazioni future di testo e immagini e agire tramite simulazioni immaginate.

Creare bot in grado di comunicare organicamente con le persone nel mondo reale utilizzando il linguaggio è da tempo un obiettivo dell’intelligenza artificiale. Gli agenti incorporati attuali possono eseguire comandi semplici e di basso livello come “prendi il blocco blu” o “passa oltre all’ascensore e gira a destra”. Tuttavia, gli agenti interattivi devono essere in grado di comprendere l’intera gamma di modi in cui le persone utilizzano il linguaggio al di fuori del “qui e ora”, compresa la trasmissione di conoscenze (ad esempio, “il pulsante in alto a sinistra spegne la TV”), informazioni situazionali (ad esempio, “siamo senza latte”) e coordinazione (ad esempio, “ho già aspirato il soggiorno”).

La maggior parte di ciò che i bambini leggono nei testi o sentono dagli altri trasmette informazioni sul mondo, sia su come funziona che su come è adesso. Come potrebbero rendere possibile agli agenti di parlare altre lingue? Il reinforcement learning (RL) è una tecnica per insegnare agli agenti condizionati dal linguaggio a risolvere problemi. Tuttavia, la maggior parte delle tecniche RL condizionate dal linguaggio attualmente in uso sono addestrate per produrre azioni da istruzioni specifiche per compiti, ad esempio, prendendo una descrizione dell’obiettivo come “prendi il blocco blu” in input e generando una serie di comandi motori. La mappatura diretta del linguaggio al miglior corso di azione offre una sfida di apprendimento difficile quando si considera la varietà di ruoli che il linguaggio naturale svolge nel mondo reale effettivo.

Se il lavoro da svolgere è quello di pulire, l’agente dovrebbe rispondere passando al passaggio successivo di pulizia, ma se si tratta di servire la cena, l’agente dovrebbe raccogliere le ciotole. Prendiamo il caso di “ho messo via le ciotole” come esempio. Il linguaggio ha solo una debole correlazione con il miglior corso di azione per l’agente quando non parla del lavoro. Di conseguenza, la mappatura solo tra ricompense per il compito e attività linguistiche potrebbe essere un segnale di apprendimento migliore per imparare a utilizzare una varietà di input linguistici per completare i compiti. Invece, suggeriscono che una funzione unificante del linguaggio per gli agenti sia quella di aiutare nella previsione futura. La frase “ho messo via le ciotole” consente agli agenti di prevedere in modo più accurato le osservazioni future (ad esempio, se apre il mobile, vedrà le ciotole all’interno).

In questo senso, gran parte del linguaggio che i bambini incontrano potrebbe essere radicato nell’esperienza visiva. Gli agenti possono prevedere i cambiamenti ambientali utilizzando informazioni precedenti, ad esempio “le chiavi inglesi possono essere utilizzate per stringere i dadi”. Gli agenti potrebbero anticipare le osservazioni dicendo “il pacchetto è fuori”. Questo paradigma combina anche pratiche comuni di seguire le istruzioni in termini predittivi: le istruzioni aiutano gli agenti a prevedere le loro ricompense. Sostengono che la previsione delle rappresentazioni future offra agli agenti un ricco segnale di apprendimento che li aiuterà a comprendere il linguaggio e come interagisce con il mondo esterno, molto simile a come la previsione del token successivo consente ai modelli di linguaggio di costruire rappresentazioni interne della conoscenza del mondo.

Ricercatori di UC Berkeley presentano Dynalang, un agente che acquisisce un modello linguistico e visivo del mondo attraverso l’esperienza online e utilizza il modello per comprendere come comportarsi. Dynalang separa l’apprendimento del comportamento utilizzando quel modello (reinforcement learning con incentivi per il compito) dall’apprendimento della modellazione del mondo con il linguaggio (supervised learning con obiettivi di previsione). Il modello del mondo riceve input visivi e testuali come modalità di osservazione, che vengono compressi in uno spazio latente. Con i dati raccolti online mentre l’agente interagisce con l’ambiente circostante, addestra il modello del mondo a prevedere le future rappresentazioni latenti. Utilizzando la rappresentazione latente del modello del mondo come input, addestrano la policy a prendere decisioni che massimizzano la ricompensa del compito.

Dato che la modellazione del mondo è distinta dall’azione, Dynalang può essere preaddestrato su singole modalità (solo testo o solo video) senza attività o ricompense per il compito. Inoltre, il framework per la produzione di linguaggio può essere unificato: la percezione di un agente può influenzare il suo modello di linguaggio (ad esempio, le sue previsioni sui token futuri), consentendogli di comunicare sull’ambiente producendo linguaggio nello spazio delle azioni. Testano Dynalang su una vasta gamma di domini con vari contesti linguistici. Dynalang impara a utilizzare indizi linguistici riguardo alle osservazioni future, alla dinamica dell’ambiente e alle correzioni per svolgere più rapidamente i compiti in un ambiente di pulizia multitask. Nel benchmark Messenger, Dynalang supera le architetture specifiche per compiti leggendo i manuali di gioco per abbinare la fase più difficile del gioco. Dimostrano che Dynalang può seguire istruzioni in aree visivamente e linguisticamente complesse nella navigazione visione-linguaggio. Questi contributi dimostrano che Dynalang impara a comprendere molte forme di linguaggio per compiere varie attività, superando spesso algoritmi RL all’avanguardia e architetture specifiche per compiti.

Ecco i contributi che hanno fatto:

• Suggeriscono Dynalang, un agente che utilizza la previsione del futuro per collegare il linguaggio all’esperienza visiva.

• Mostrano che Dynalang supera gli algoritmi RL di ultima generazione e i design specifici per compiti apprendendo a comprendere vari tipi di linguaggio per affrontare una vasta gamma di compiti.

• Dimostrano che la formulazione di Dynalang apre nuove possibilità, inclusa la capacità di combinare la creazione di linguaggio con la preformazione solo testo senza azioni o incentivi per il compito in un singolo modello.