Gli ricercatori del CMU propongono TIDEE un agente incarnato in grado di mettere in ordine stanze mai viste prima senza alcuna istruzione esplicita

The CMU researchers propose TIDEE, an embodied agent capable of organizing unseen rooms without any explicit instruction.

Il funzionamento efficace di un robot richiede più che una semplice obbedienza cieca a comandi predefiniti. I robot dovrebbero rispondere quando si verifica una deviazione evidente dalla norma e dovrebbero essere in grado di dedurre importanti contesti da istruzioni incomplete. Istruzioni parziali o autogenerate richiedono il tipo di ragionamento che richiede una solida comprensione di come le cose nell’ambiente (oggetti, fisica, altri agenti, ecc.) dovrebbero agire. Questo tipo di pensiero e azione è un componente cruciale del ragionamento intuitivo incorporato, che è essenziale affinché i robot lavorino e interagiscano in modo naturale nel mondo reale.

Il campo del pensiero intuitivo incorporato è stato in ritardo rispetto agli agenti incorporati che possono seguire istruzioni specifiche passo dopo passo, perché questi ultimi devono imparare ad osservare e agire senza istruzioni esplicite. Il pensiero intuitivo incorporato può essere studiato attraverso compiti come l’ordine, in cui l’agente deve riconoscere oggetti nei posti sbagliati e prendere provvedimenti correttivi per riportarli in posizioni più appropriate. L’agente deve navigare e manipolare in modo intelligente mentre cerca in luoghi probabili gli oggetti da spostare, riconoscendo quando le cose sono fuori dalle loro posizioni naturali nella scena attuale e determinando dove riposizionare gli oggetti in modo che siano in posizioni corrette. Il ragionamento intuitivo sul posizionamento degli oggetti e le abilità desiderabili degli esseri intelligenti si uniscono in questa sfida.

TIDEE è un agente incorporato proposto dal team di ricerca che può pulire spazi che non ha mai visto prima senza alcuna guida. TIDEE è il primo del suo tipo perché può esaminare una scena per individuare oggetti che non si trovano dove dovrebbero essere, capire dove nella scena metterli e poi spostarli lì con precisione.

TIDEE esplora l’ambiente circostante di una casa, trova cose fuori posto, deduce i contesti probabili degli oggetti, localizza tali contesti nella scena attuale e sposta gli oggetti nelle loro posizioni corrette. Le conoscenze comuni sono codificate in una rete di ricerca visiva che guida l’esplorazione dell’agente per localizzare in modo efficiente il contenitore di interesse nella scena attuale per riposizionare l’oggetto; ii) rilevatori visivo-semantici che rilevano oggetti fuori posto; e iii) una memoria neurale grafica associativa di cose e relazioni spaziali che propone contenitori semantici plausibili e superfici per riposizionare gli oggetti. Utilizzando l’ambiente di simulazione AI2THOR, i ricercatori mettono TIDEE alla prova facendolo pulire ambienti caotici. TIDEE completa il lavoro direttamente dall’input di pixel e profondità grezzo senza aver visto la stessa stanza in precedenza, utilizzando solo le conoscenze comuni apprese da una diversa raccolta di case di addestramento. Secondo le valutazioni umane dei cambiamenti nel layout della stanza risultanti, TIDEE si comporta meglio delle varianti ablative del modello che escludono una o più delle conoscenze comuni.

TIDEE può sistemare spazi che non ha mai visto prima senza alcuna guida o esposizione precedente ai luoghi o agli oggetti in questione. TIDEE fa ciò osservando l’area, identificando gli oggetti ed etichettandoli come normali o anormali. TIDEE utilizza l’inferenza del grafo sulla sua struttura della scena e la memoria del grafo esterno per dedurre le categorie di contenitori potenziali quando un oggetto è fuori posto. Utilizza quindi la mappa semantica spaziale della scena per guidare una rete di ricerca basata sull’immagine verso possibili posizioni delle categorie di contenitori.

Come funziona?

TIDEE pulisce le stanze in tre fasi distinte. TIDEE inizia scandendo l’area e eseguendo un rilevatore di anomalie ad ogni passo temporale finché non trova un oggetto sospetto. TIDEE si sposta quindi dove si trova l’oggetto e lo afferra. La seconda fase prevede che TIDEE deduca un contenitore probabile per l’oggetto in base al grafo della scena e alla memoria del grafo esterno congiunta. Se TIDEE non ha ancora riconosciuto il contenitore, utilizzerà una rete di ricerca visiva per guidare la sua esplorazione dell’area e suggerire dove potrebbe essere scoperto il contenitore. TIDEE conserva le coordinate 3D stimate degli oggetti identificati in precedenza nella memoria e utilizza queste informazioni per la navigazione e il tracciamento degli oggetti.

Gli attributi visivi di ciascun oggetto vengono raccolti utilizzando un rilevatore di oggetti disponibile commercialmente. Allo stesso tempo, le caratteristiche del linguaggio relazionale vengono prodotte alimentando le previsioni del modello di linguaggio preaddestrato per le relazioni 3D tra gli oggetti (come “vicino a”, “supportato da”, “sopra” e così via).

TIDEE contiene un modulo neurale grafico programmato per anticipare possibili idee di posizionamento degli oggetti una volta che un oggetto è stato preso. Un oggetto da mettere, un grafo di memoria che contiene connessioni contestuali plausibili apprese da scenari di addestramento e un grafo della scena che codifica la configurazione oggetto-relazione nella scena attuale interagiscono per far funzionare il modulo.

TIDEE utilizza una rete di ricerca ottica che predice la probabilità di presenza di un oggetto in ogni punto spaziale di una mappa degli ostacoli, data la mappa degli ostacoli semantici e una categoria di ricerca. L’agente guarda quindi in quelle aree in cui ritiene più probabile trovare l’obiettivo.

TIDEE presenta due limitazioni, entrambe direzioni evidenti per la ricerca futura: non considera gli stati aperti e chiusi degli oggetti, né include la loro postura tridimensionale come parte del processo di disordine e riorganizzazione.

È possibile che il caos che deriva dal disperdere in modo negligente oggetti in una stanza non sia rappresentativo del caos reale della vita quotidiana.

TIDEE completa il lavoro direttamente dai dati di input dei pixel e della profondità grezzi, senza aver mai visto la stessa stanza in precedenza, utilizzando solo le conoscenze apprese da una raccolta diversa di case di addestramento. Secondo le valutazioni umane dei cambiamenti risultanti nella disposizione della stanza, TIDEE si comporta meglio rispetto a varianti del modello che escludono una o più delle conoscenze comuni. Una versione semplificata del modello si comporta molto meglio di una soluzione di alto livello in un benchmark di riorganizzazione delle stanze comparabile, permettendo all’agente di osservare lo stato obiettivo prima della riorganizzazione.