Ricercatori del MIT hanno sviluppato una tecnica di intelligenza artificiale (AI) che permette a un robot di sviluppare piani complessi per manipolare un oggetto utilizzando l’intera mano.

Il MIT ha sviluppato una tecnica di AI che consente a un robot di manipolare oggetti con la mano.

La manipolazione dell’intero corpo è un punto di forza degli esseri umani ma una debolezza dei robot. Il robot interpreta ogni possibile punto di contatto tra la scatola e le dita, le braccia o il torso del trasportatore come un evento di contatto separato. Questo compito diventa difficile da preparare non appena si considerano miliardi di possibili eventi di contatto. Ora, i ricercatori del MIT possono semplificare questa tecnica, chiamata pianificazione di manipolazione con contatto ricco. Viene utilizzato un approccio di intelligenza artificiale chiamato “smoothing” per ridurre il numero di giudizi necessari per trovare un buon piano di manipolazione per il robot tra il vasto numero di eventi di contatto.

I nuovi sviluppi nell’apprendimento per rinforzo hanno dimostrato risultati sorprendenti nella manipolazione attraverso dinamiche con contatto ricco, cosa che in passato era difficile da ottenere utilizzando tecniche basate su modelli. Sebbene queste tecniche fossero efficaci, non si sa ancora perché hanno avuto successo mentre gli approcci basati su modelli hanno fallito. L’obiettivo generale è comprendere e dare un senso a questi fattori da un punto di vista basato su modelli. Basandosi su queste comprensioni, gli scienziati lavorano per unire il successo empirico dell’apprendimento per rinforzo con la generalizzabilità e l’efficacia dei modelli.

La natura ibrida delle dinamiche di contatto rappresenta la sfida più grande per la pianificazione attraverso il tocco da un punto di vista basato su modelli. Poiché le dinamiche risultanti non sono lisce, l’approssimazione di Taylor non è più valida localmente e il modello lineare costruito utilizzando il gradiente si deteriora rapidamente. Poiché sia l’ottimizzazione iterativa basata sul gradiente che la pianificazione basata su campionamento utilizzano metriche di distanza locali, l’invalidità del modello locale pone seri problemi per entrambi. In risposta a questi problemi, numerose pubblicazioni hanno cercato di tenere conto delle modalità di contatto elencandole o fornendo esempi di esse. Questi pianificatori, che hanno una comprensione basata su modelli delle modalità dinamiche, passano spesso dalla pianificazione dello stato continuo nella modalità di contatto corrente a una ricerca discreta per la modalità successiva, portando a traiettorie con pochi cambiamenti di modalità qua e là.

La prima cosa che i ricercatori hanno aggiunto è la prova che le due strategie di “smoothing” sono teoricamente equivalenti per i sistemi di base nell’ambito. Inoltre, utilizzando questo framework, gli autori dimostrano come calcolare in modo efficiente i modelli localmente lineari (cioè i gradienti) delle dinamiche “smoothe” in tempo reale, e dimostrano che le caratteristiche qualitative e le prestazioni empiriche delle due strategie di “smoothing” sono comparabili in vari esempi complessi.

Il secondo miglioramento è un modello completo delle dinamiche di contatto. In particolare, suggeriscono un modello di contatto implicito a passo temporale che è convesso. La rilassazione del contatto di Anitescu porta alla convessità. Tuttavia, introduce qualche comportamento lievemente non fisico nella realtà. Rispetto alla formulazione standard del Problema di Complementarità Lineare (LCP), la convessità offre significativi vantaggi numerici.

L’assunzione quasi-dinamica è comunemente utilizzata nella manipolazione robotica perché consente una prevedibilità a lungo termine. Non c’è bisogno di variabili che rappresentano la velocità o l’ammortizzazione nei modelli quasi-dinamici perché l’energia cinetica si perde ad ogni passo temporale. Verificano e testano il modello di contatto quasi-dinamico simulando ed eseguendo gli stessi percorsi di input in Drake, un simulatore di alto livello di secondo ordine sull’hardware. Se il sistema preso in considerazione è fortemente smorzato e dominato dalle forze di attrito, i risultati suggeriscono che il modello può approssimare meglio le dinamiche di secondo ordine.

Inoltre, è possibile utilizzare un rilassamento a barriera logaritmica per rendere più flessibile analiticamente il modello di contatto. Come è tipico nel metodo del punto interno per i sistemi convessi, viene utilizzata una funzione a barriera logaritmica per imporre in modo flessibile le restrizioni di contatto rigide in questa strategia di rilassamento. Ulteriori lavori dimostrano che il teorema della funzione implicita fornisce un metodo semplice per calcolare i gradienti del modello di contatto “smoothe”. Infine, gli esperti ritengono che l’obiettivo dell’apprendimento per rinforzo di eseguire l’ottimizzazione globale con la stocasticità sia un altro elemento importante dietro il suo successo empirico. La pianificazione dinamica non lineare utilizzando modelli deterministici produce tipicamente problemi di ottimizzazione non convessi, in cui la qualità di molti minimi locali potrebbe essere determinante.

L’ultimo contributo affronta questo difetto integrando le capacità di ricerca globale di RRT con quelle dell’astrazione di modalità di contatto basata su “smoothing”. Utilizzando una nuova misura di distanza derivata dai modelli locali “smoothe”, i ricercatori hanno reso possibile per RRT cercare attraverso i limiti imposti dalle dinamiche di contatto.

Contributi complessivi

Gli scienziati determinano l’equivalenza qualitativa ed empirica delle tecniche di levigatura casualizzate e analitiche su sistemi semplici.

Mostrano che la pianificazione della manipolazione ricca di contatto può trarre grande beneficio da una formulazione convessa e differenziabile della dinamica del contatto quasi-dinamico e dalla levigatura analitica associata.

I ricercatori integrano la levigatura della modalità di contatto con la pianificazione del movimento basata su campionamento per ottenere una pianificazione globale efficace tramite una dinamica del contatto estremamente ricca, colmando una lacuna nello spettro di approcci esistenti.

I ricercatori chiariscono il significato matematico della levigatura di una funzione e diverse strategie per calcolare le sue approssimazioni locali prima di discutere il contatto in sistemi complicati. Il loro obiettivo è presentare un quadro unificato delle tecniche di levigatura e delle relazioni tra di loro.

I ricercatori sono stati ispirati a fare ciò dalla differenza sorprendente tra il successo di RL in situazioni empiriche con molto contatto umano e il fallimento degli approcci basati su modelli. Hanno dimostrato che gli approcci tradizionali basati su modelli possono affrontare in modo efficace la pianificazione per la manipolazione ricca di contatto identificando le insidie nei metodi basati su modelli esistenti per la pianificazione, comprendendo come RL sia stato in grado di alleviare tali insidie e risolvendole con tecniche basate su modelli. Consentendo una pianificazione online efficiente nell’ordine di un minuto e generalizzabile rispetto a ambienti e compiti, il contributo offre un’alternativa potente agli strumenti esistenti in RL che si basano su un calcolo offline pesante nell’ordine di ore o giorni. Esaminano alcuni dei fattori che hanno reso ciò possibile.

In poche parole, sono stati ispirati a condurre questo studio dopo aver realizzato la differenza drammatica tra il successo di RL in contesti empirici e la difficoltà degli approcci basati su modelli a questo problema. Hanno dimostrato che gli approcci tradizionali basati su modelli possono affrontare in modo efficace la pianificazione per la manipolazione ricca di contatto identificando le insidie nei metodi basati su modelli esistenti per la pianificazione, comprendendo come RL sia stato in grado di alleviare tali insidie e risolvendole con tecniche basate su modelli. Consentendo una pianificazione online efficiente nell’ordine di un minuto e generalizzabile rispetto a ambienti e compiti, il contributo offre un’alternativa potente agli strumenti esistenti in RL che si basano su un calcolo offline pesante nell’ordine di ore o giorni. Esaminano alcuni dei fattori che hanno reso ciò possibile.

Inizialmente identificata come una falla negli approcci basati su modelli, la necessità di enumerare ed valutare esplicitamente le modalità è stata mitigata dalla levigatura stocastica di RL. Successivamente, hanno evidenziato un’altra falla nelle tecniche basate su modelli: le transizioni di secondo ordine potrebbero causare linearizzazioni a breve termine che non aiutano con la strategia a lungo termine. Hanno proposto il modello di Contatto Quasi-Dinamico Convesso Differenziabile (CQDC) per affrontare questa lacuna. Hanno dimostrato l’utilità del modello di contatto tramite numerosi argomenti teorici ed esperimenti. Hanno anche dimostrato che la dinamica del contatto può essere rilassata analiticamente con una barriera logaritmica valutando prima la struttura del modello. Hanno condotto studi dimostrando i vantaggi computazionali della levigatura analitica rispetto alla levigatura casuale.

In conclusione, hanno scoperto che le strategie basate sulla levigatura sono state collegate all’ottimizzazione locale della traiettoria. Rispetto alle tecniche basate su RL che cercano di effettuare una ricerca globale, hanno dimostrato di essere meno efficaci in questioni complesse a causa della loro suscettibilità ai minimi locali. Tuttavia, le tecniche SBMP per sistemi ricchi di contatto hanno evitato la trappola dell’enumerazione delle modalità tenendo esplicitamente conto delle modalità di contatto. Il lavoro contribuisce a colmare una lacuna negli approcci preesistenti fondendo la levigatura delle modalità con RRT, in cui la fase di esplorazione di RRT è stata guidata da un’approssimazione locale al surrogato liscio basata sulla metrica di Mahalanobis locale. Combinando questi tre sviluppi, hanno reso possibile per gli approcci basati su modelli e RL raggiungere una pianificazione del movimento globale efficiente per sistemi molto ricchi di contatto e ad alta dimensionalità. In futuro, utilizzeranno una versione altamente semplificata del pianificatore per guidare la ricerca di politiche o eseguire la pianificazione del movimento in tempo reale. Prevedono che questo miglioramento consentirà ai robot di individuare progetti ricchi di contatto online in aree precedentemente inesplorate entro pochi secondi di tempo di pianificazione.