Ricercatori dell’UC Santa Cruz e Samsung presentano ESC un agente di navigazione degli oggetti senza training che utilizza il senso comune nelle LLM come ChatGPT per le decisioni di navigazione.

Ricercatori presentano ESC, un agente di navigazione senza training che utilizza il senso comune nelle LLM come ChatGPT per le decisioni di navigazione.

La navigazione degli oggetti (ObjNav) guida un agente fisico verso un oggetto di destinazione predefinito in un ambiente altrimenti sconosciuto. Navigare verso un oggetto target è un prerequisito affinché l’agente possa interagire con esso, rendendo questa attività cruciale per altre attività basate sulla navigazione incorporata.

Identificare stanze e oggetti nell’ambiente (comprensione semantica della scena) e utilizzare il ragionamento del senso comune per dedurre la posizione dell’oggetto obiettivo (inferenza del senso comune) sono due abilità essenziali per una navigazione di successo. Tuttavia, le attuali approcci di navigazione degli oggetti a zero-shot spesso mancano di abilità di ragionamento del senso comune e non hanno affrontato adeguatamente questa esigenza. Le tecniche esistenti si basano su euristiche semplici per l’esplorazione o richiedono l’addestramento su altre attività di navigazione orientate agli obiettivi e sulle circostanze circostanti.

Ricerche recenti hanno dimostrato che modelli pre-addestrati massivi eccellono nell’apprendimento a zero-shot e nella risoluzione dei problemi. Ispirandosi a questi risultati, l’Università della California, Santa Cruz e Samsung Research hanno proposto un framework di navigazione degli oggetti a zero-shot chiamato Exploration with Soft Commonsense constraints (ESC). Il framework utilizza modelli pre-addestrati per adattarsi automaticamente a ambienti e tipi di oggetti sconosciuti.

Il team utilizza prima GLIP, un modello di ancoraggio visione-linguaggio che può dedurre informazioni sugli oggetti e sulle stanze delle visualizzazioni attuali dell’agente, come un metodo basato su prompt per l’ancoraggio degli oggetti nel mondo reale e la comprensione della scena. Grazie al suo ampio pre-addestramento su coppie immagine-testo, GLIP può generalizzare facilmente a oggetti nuovi con una minima sollecitazione. Quindi, utilizzano un modello di ragionamento sul senso comune pre-addestrato che utilizza i dati sulla stanza e sull’oggetto come contesto per dedurre l’associazione tra i due.

Tuttavia, c’è ancora una lacuna nella traduzione delle conoscenze di senso comune dedotte dai LLM in passi attuabili. Non è neanche raro che ci sia un certo grado di indeterminatezza nelle connessioni tra le cose. Utilizzando Probabilistic Soft Logic (PSL), un linguaggio dichiarativo di modellazione che definisce un sottoinsieme di campi casuali di Markov che aderiscono ai principi logici del primo ordine, l’approccio ESC modella restrizioni di senso comune “soft” per superare questi ostacoli. L’esplorazione basata sulla frontiera (FBE) è una strategia tradizionale che utilizza queste gentili limitazioni di senso comune per concentrarsi sulla prossima frontiera da esplorare. Mentre gli approcci precedenti si sono basati sull’addestramento delle reti neurali per instillare implicitamente il senso comune, il metodo proposto utilizza invece predicati di logica soft per esprimere conoscenze in uno spazio di valori continui, che vengono quindi forniti a ciascuna frontiera per facilitare una maggiore efficienza nell’esplorazione.

Per testare l’efficacia del sistema, i ricercatori utilizzano tre benchmark di navigazione degli obiettivi degli oggetti (MP3D, HM3D e RoboTHOR) con dimensioni abitative variabili, stili architettonici, caratteristiche di texture e tipi di oggetti. I risultati mostrano che l’approccio supera CoW in una configurazione simile di circa il 285% in SPL pesato per lunghezza (SPL) e SR (tasso di successo) su MP3D e di circa il 35% e SR (tasso di successo) su RoboTHOR, rispettivamente. La tecnica ottiene un miglior SPL relativo del 196% su MP3D e un miglior SPL relativo del 85% su HM3D rispetto a ZSON, che richiede l’addestramento sul dataset HM3D. Sul dataset MP3D, l’approccio zero-shot proposto ottiene l’SPL più alto rispetto ad altri algoritmi supervisionati all’avanguardia.