Questo articolo sull’IA propone un paradigma efficace per addestrare la navigazione visione-e-linguaggio su larga scala (VLN) e valuta quantitativamente l’influenza di ciascun componente nel processo.

Questo articolo propone un paradigma efficace per addestrare la navigazione VLN su larga scala e valuta l'influenza di ogni componente nel processo.

Sono stati raccolti diversi demo umani per l’apprendimento della navigazione visiva e i recenti enormi dataset contengono centinaia di scenari interattivi, entrambi hanno portato a miglioramenti significativi nelle prestazioni dell’agente. Tuttavia, raggiungere una tale formazione massiccia richiede la risoluzione di una serie di sotto-problemi chiave, come ad esempio come costruire grafi di navigazione, ripristinare immagini renderizzate corrotte e generare istruzioni di navigazione. Tutto ciò ha un impatto significativo sulla qualità dei dati raccolti e quindi deve essere esplorato approfonditamente.

È necessario studiare come utilizzare in modo efficiente i dati su larga scala per beneficiare dell’addestramento degli agenti di navigazione in modo appropriato e un agente che possa comprendere il linguaggio naturale umano e navigare in ambienti fotorealistici è un sistema sofisticato e modularizzato.

Per addestrare reti di navigazione visione-linguaggio su larga scala (VLNs), ricercatori dell’Università Nazionale Australiana, OpenGVLab, Shanghai AI Laboratory, UNC, Chapel Hill, Università di Adelaide e Adobe Research offrono un nuovo paradigma valutando statisticamente l’impatto di ogni componente nel processo. Utilizzando il simulatore Habitat, utilizzano ambienti dai dataset HM3D e Gibson e costruiscono grafi di navigazione per gli ambienti. Campionano nuove traiettorie, creano istruzioni e addestrano agenti a risolvere problemi di navigazione successivi.

A differenza dei metodi precedenti come AutoVLN e MARVAL, questi grafi di navigazione sono costruiti con una procedura eccessiva di campionamento e aggregazione dei punti di vista, utilizzando l’euristica di creazione del grafo introdotta in. Questo approccio produce reti completamente connesse con un’ampia copertura all’aperto.

I ricercatori addestrano anche il Co-Modulated GAN per generare immagini fotorealistiche dalle sezioni rotte, deformate o mancanti nelle immagini generate corrotte dai settaggi HM3D e Gibson, riducendo l’impatto del rumore dei dati visivi. A differenza di MARVAL, questo regime di addestramento su larga scala è completamente riproducibile e facile da eseguire, migliorando significativamente le prestazioni dell’agente.

Esperimenti approfonditi mostrano che se l’agente deve migliorare nelle attività successive con istruzioni specifiche, come R2R, il grafo di navigazione deve essere completamente percorribile. Inoltre, dimostrano i vantaggi nel ripristinare immagini fotorealistiche dalle immagini generate, in particolare per le scansioni 3D di bassa qualità degli habitat Gibson. I risultati indicano anche che gli agenti possono generalmente utilizzare dati visivi più diversi e possono migliorare la loro generalizzazione a contesti nuovi apprendendo da nuove scene anziché solo da più dati.

Inoltre, il team verifica che un agente addestrato con istruzioni aumentate fornite da un modello di base basato su LSTM può svolgere bene varie attività di navigazione. Concludono che la capacità di generalizzazione dell’agente può essere migliorata integrando i dati aumentati con i dati originali durante la preformazione e l’ottimizzazione fine.

Sorprendentemente, utilizzando l’analisi sopra come linee guida per l’aumento dei dati e l’addestramento dell’agente, il modello VLN proposto può raggiungere un tasso di successo dell’80% sullo split di test R2R tramite semplice apprendimento per imitazione senza esplorazione preliminare, ricerca a fascio o ensemble di modelli ed elimina il divario di navigazione tra ambienti visti e non visti. Questo risultato rappresenta un enorme miglioramento rispetto all’approccio precedentemente migliore (73%), riducendo il divario delle prestazioni a soli 6 punti percentuali dai livelli umani. L’approccio a diversi sfide di navigazione visiva guidata dal linguaggio, come CVDN e REVERIE, ha spinto avanti lo stato dell’arte. Le prestazioni VLN migliorano del 5% sulle ambientazioni continue (R2R-CE), uno scenario più realistico ma impegnativo, anche se i dati migliorati sono discreti.