Come possono i robot prendere decisioni migliori? Ricercatori del MIT e di Stanford presentano Diffusion-CCSP per un ragionamento e pianificazione avanzati dei robot

Robot decision-making improved with Diffusion-CCSP, a new advanced reasoning and planning system developed by MIT and Stanford researchers.

La capacità di scegliere valori continui, come ad esempio prese e posizioni degli oggetti, che soddisfano complessi vincoli geometrici e fisici, come la stabilità e l’assenza di collisioni, è cruciale per la pianificazione della manipolazione robotica. Negli approcci esistenti, i sampler per ogni tipo di vincolo sono tradizionalmente appresi o ottimizzati separatamente. Tuttavia, è necessario un risolutore di uso generale per problemi complessi che generi valori che soddisfino contemporaneamente una vasta gamma di vincoli.

A causa della scarsità di dati, costruire o addestrare un singolo modello per soddisfare tutti i requisiti potenziali può essere difficile. Di conseguenza, i pianificatori robot di uso generale devono essere in grado di riciclare e costruire risolutori per lavori più grandi.

Come framework unificato, recenti ricerche del MIT e dell’Università di Stanford suggeriscono di utilizzare grafi di vincolo per esprimere i problemi di soddisfacimento dei vincoli come nuove combinazioni di tipi di vincolo appresi. Successivamente, possono utilizzare risolutori di vincoli basati su modelli di diffusione per identificare soluzioni che soddisfino congiuntamente i vincoli. Un esempio di variabile decisionale è una presa di presa, anche se una posa di posizionamento o una traiettoria del robot sono anche esempi di nodi in un grafo di vincoli.

Per risolvere nuovi problemi, il risolutore di vincoli di diffusione composito (Diffusion-CCSP) apprende un insieme di modelli di diffusione per diversi vincoli. Combina quindi tutor per trovare assegnazioni soddisfacenti attraverso un processo di diffusione che genera diverse campionature dalla regione fattibile. In particolare, ogni modello di diffusione è addestrato a produrre soluzioni valide per una singola classe di vincolo (come posizioni che evitano collisioni). Al momento dell’infusione, i ricercatori possono condizionare su qualsiasi sottoinsieme delle variabili e risolvere il resto, poiché i modelli di diffusione sono modelli generativi dell’insieme delle soluzioni. Ogni modello di diffusione è addestrato a minimizzare una funzione di energia implicita, rendendo il compito di soddisfare i vincoli globali equivalente a minimizzare l’energia delle soluzioni nel complesso (qui, solo la somma delle funzioni di energia delle singole soluzioni). Queste due aggiunte forniscono un’ampia possibilità di personalizzazione durante l’addestramento e l’infusione.

Separatamente o congiuntamente, coppie di problemi e soluzioni compositi possono essere utilizzate per addestrare modelli di diffusione dei componenti. Anche quando il grafo di vincoli contiene più variabili di quelle viste durante l’addestramento, Diffusion-CCSP può generalizzare a nuove combinazioni di vincoli noti durante il tempo di esecuzione delle prestazioni.

I ricercatori testano Diffusion-CCSP su quattro domini difficili, tra cui il confezionamento denso di triangoli in due dimensioni, l’organizzazione della forma in due dimensioni soggetta a restrizioni qualitative, l’impilamento di forme in tre dimensioni soggetto a vincoli di stabilità e il confezionamento di oggetti in tre dimensioni utilizzando robot. I risultati dimostrano che questo metodo supera i confronti in velocità di inferenza e generalizzazione a nuove combinazioni di vincoli e problemi più vincolati.

Il team sottolinea che tutti i vincoli esaminati in questo lavoro hanno un’arità fissa. Tenere conto dei vincoli e dell’arità delle variabili è una strada intrigante da percorrere. Ritengono anche che sarebbe utile se il loro modello potesse accettare istruzioni in linguaggio naturale. Inoltre, il metodo attuale per creare etichette e soluzioni per i compiti è limitato, specialmente quando si tratta di limitazioni qualitative come “preparare la tavola da pranzo”. Suggeriscono che gli sviluppi futuri utilizzino codificatori di forme più complessi e vincoli di apprendimento derivati da dati del mondo reale, come fotografie online, per ampliare la portata delle applicazioni attuali e future.