Incontra ConceptGraphs una rappresentazione a grafo strutturato a vocabolario aperto per le scene 3D

Incontra ConceptGraphs una rappresentazione a grafo strutturato a vocabolario aperto per le scene 3D

Catturare ed codificare informazioni su una scena visiva, tipicamente nel contesto della computer vision, intelligenza artificiale o grafica, si chiama rappresentazione della scena. Questo implica la creazione di una rappresentazione strutturata o astratta degli elementi e degli attributi presenti in una scena, inclusi oggetti, posizioni, dimensioni, colori e relazioni. I robot devono costruire queste rappresentazioni online dai sensori di bordo mentre si spostano in un ambiente.

Le rappresentazioni devono essere scalabili ed efficienti per mantenere il volume della scena e la durata dell’operazione del robot. La libreria aperta non dovrebbe limitarsi ai dati predefiniti nella sessione di formazione, ma dovrebbe essere in grado di gestire nuovi oggetti e concetti durante l’elaborazione. Richiede flessibilità per consentire la pianificazione su una serie di compiti, come la raccolta di informazioni geometriche dense e di informazioni semantiche astratte per la pianificazione dei compiti.

Per includere i requisiti sopra elencati, i ricercatori dell’Università di Toronto, del MIT e dell’Università di Montréal propongono ConceptGraphs, un metodo di rappresentazione della scena 3D per la percezione e la pianificazione dei robot. Il processo tradizionale di ottenere rappresentazioni della scena 3D utilizzando modelli di base richiede una quantità di dati di addestramento su una scala di Internet e i set di dati 3D devono ancora essere di dimensioni comparabili.

Si basano sull’assegnazione di ogni punto a un vettore di caratteristiche semantiche ridondanti, il che consuma più memoria del necessario, limitando la scalabilità alle scene di grandi dimensioni. Queste rappresentazioni sono dense e non possono essere aggiornate dinamicamente sulla mappa, quindi non sono facili da scomporre. Il metodo sviluppato dal team può descrivere efficientemente le scene con strutture di grafi con rappresentazioni dei nodi. Può essere costruito su sistemi in tempo reale che possono creare rappresentazioni gerarchiche della scena 3D.

ConceptGraphs è un sistema di mappatura centrato sugli oggetti che integra dati geometrici da sistemi di mappatura 3D e dati semantici da modelli di base 2D. Pertanto, questo tentativo di ancorare le rappresentazioni 2D prodotte dai modelli di base di immagini e linguaggio al mondo 3D mostra risultati impressionanti su compiti a vocabolario aperto, inclusa la definizione degli oggetti guidata dal linguaggio, il ragionamento 3D e la navigazione.

ConceptGraphs può costruire efficientemente grafici di scene 3D su vocabolario aperto e astrazioni semantiche strutturate per la percezione e la pianificazione. Il team ha anche implementato ConceptGraphs su piattaforme robotiche su ruote e a gambe nel mondo reale e ha dimostrato che quei robot possono eseguire la pianificazione dei compiti per le richieste di linguaggio astratto con facilità.

Fornendo frame RGB-D, il team esegue un modello di segmentazione senza classe per ottenere oggetti candidati. Li associa attraverso più visualizzazioni utilizzando misure di similarità geometrica e semantica e istanzia nodi in un grafo di scene 3D. Successivamente, utilizzano un LVLM per descrivere ogni nodo e un LLM per inferire le relazioni tra i nodi adiacenti e costruire i bordi nel grafo della scena.

I ricercatori affermano che il lavoro futuro comporterà l’integrazione di dinamiche temporali nel modello e la valutazione delle sue prestazioni in ambienti meno strutturati e più impegnativi. Infine, il loro modello affronta le limitazioni chiave del panorama esistente delle rappresentazioni dense e implicite.