Ricercatori di Stanford propongono ‘EquivAct’ una svolta nell’apprendimento dei robot per generalizzare i compiti in diverse scale e orientamenti.

I ricercatori di Stanford svelano 'EquivAct' una svolta nell'apprendimento dei robot per una generalizzazione dei compiti in diverse scale e orientamenti.

Gli esseri umani possono estrapolare e imparare a risolvere variazioni di un compito di manipolazione se gli oggetti coinvolti hanno attributi visivi o fisici variabili, fornendo solo qualche esempio su come completare il compito con oggetti standard. Per rendere le politiche apprese universali per diverse scale di oggetti, orientamenti e aspetti visivi, gli studi esistenti sull’apprendimento dei robot hanno ancora bisogno di una considerevole data augmentation. Tuttavia, non è garantita la generalizzazione a variazioni non scoperte.

Un nuovo articolo dell’Università di Stanford indaga la sfida dell’apprendimento a zero-shot di una politica visuomotrice che può ricevere in input un piccolo numero di traiettorie campione da uno scenario di manipolazione di origine singola e generalizzarsi a scenari con aspetti visivi, dimensioni e pose degli oggetti non visti in precedenza. In particolare, era importante imparare politiche per gestire oggetti deformabili e articolati, come abbigliamento o scatole, oltre a quelli rigidi, come prendere e mettere in un luogo. Per garantire che la politica appresa sia robusta rispetto a diverse posizioni, orientamenti e scale degli oggetti, la proposta era di incorporare equivalenti nella rappresentazione visiva degli oggetti e nell’architettura della politica.

Presentano EquivAct, un nuovo approccio di apprendimento della politica visuomotrice che può apprendere politiche a loop chiuso per compiti di manipolazione di robot 3D da dimostrazioni in uno scenario di manipolazione di origine singola e generalizzare a zero-shot a scenari non visti in precedenza. La politica appresa prende in input le posture dell’effettore finale del robot e una nuvola di punti parziale dell’ambiente e in output le azioni del robot, come la velocità dell’effettore finale e i comandi del gripper. A differenza della maggior parte dei lavori precedenti, i ricercatori hanno utilizzato architetture di rete equivarianti per SIM(3). Ciò significa che le velocità dell’effettore finale in output si adatteranno adeguatamente quando la nuvola di punti in input e le posizioni dell’effettore finale vengono tradotte e ruotate. Poiché l’architettura della loro politica è equivariante, può apprendere da dimostrazioni di attività su tavolo di piccola scala e quindi generalizzare a compiti di manipolazione mobile che coinvolgono variazioni più grandi degli oggetti dimostrati con aspetti visivi e fisici distinti.

Questo approccio è diviso in due parti: apprendimento della rappresentazione e apprendimento della politica. Per addestrare le rappresentazioni dell’agente, il team fornisce prima un insieme di nuvole di punti sintetiche acquisite utilizzando la stessa telecamera e le stesse impostazioni degli oggetti del compito target ma con una scala non uniforme casuale diversa. Hanno integrato i dati di addestramento in questo modo per adattarsi alla scala non uniforme, anche se l’architettura suggerita è equivariante alla scala uniforme. I dati simulati non devono mostrare attività del robot o dimostrare effettivamente il compito. Per estrarre le caratteristiche globali e locali dalla nuvola di punti della scena, utilizzano i dati simulati per addestrare un’architettura encoder-decoder SIM(3)-equivariante. Durante l’addestramento, è stato utilizzato una perdita di apprendimento contrastivo su input di nuvole di punti accoppiati per combinare le caratteristiche locali per sezioni di oggetti correlati in posizioni simili. Durante la fase di apprendimento della politica, si presumeva che l’accesso a un campione di traiettorie di compiti precedentemente verificate fosse limitato.

I ricercatori utilizzano i dati per addestrare una politica a ciclo chiuso che, dato un parziale della nuvola di punti della scena come input, utilizza un encoder precedentemente appreso per estrarre le caratteristiche globali e locali dalla nuvola di punti e quindi alimenta quelle caratteristiche in una rete di previsione delle azioni SIM(3)-equivariante per prevedere i movimenti dell’effettore finale. Oltre ai comuni compiti di manipolazione di oggetti rigidi dei lavori precedenti, il metodo proposto viene valutato su compiti più complessi come piegare il copripiumino, coprire i contenitori e sigillare le scatole.

Il team presenta molti esempi umani in cui una persona manipola un oggetto su un tavolo per ogni attività. Dopo aver dimostrato il metodo, lo hanno valutato su una piattaforma di manipolazione mobile, dove i robot dovranno risolvere lo stesso problema su una scala molto più grande. I risultati mostrano che questo metodo è in grado di apprendere una politica di manipolazione robotica a ciclo chiuso delle demo di manipolazione di origine e di eseguire il lavoro target in una sola esecuzione senza bisogno di ulteriori aggiustamenti. Inoltre è dimostrato che l’approccio è più efficiente di quello e si basa su significative augmentations per la generalizzazione a pose e scale degli oggetti fuori dalla distribuzione. Inoltre supera i lavori che non sfruttano l’equivalenza.