Osserva e impara piccolo robot questo approccio di intelligenza artificiale insegna ai robot la manipolazione generalizzabile utilizzando le dimostrazioni video umane

Robot osserva e impara l'intelligenza artificiale attraverso video umani per la manipolazione generalizzata.

I robot sono sempre stati al centro dell’attenzione nel panorama tecnologico. Hanno sempre trovato un posto nei film di fantascienza, negli spettacoli per bambini, nei libri, nei romanzi distopici, ecc. Non molto tempo fa, erano solo sogni di fantascienza, ma ora sono ovunque, ridisegnando le industrie e dando uno sguardo al futuro. Dalle fabbriche allo spazio esterno, i robot stanno prendendo il centro della scena, mostrando la loro precisione e adattabilità come mai prima d’ora.

L’obiettivo principale nel campo della robotica è sempre stato lo stesso: copiare la destrezza umana. La ricerca per raffinare le capacità di manipolazione al fine di imitare gli esseri umani ha portato a sviluppi entusiasmanti. Sono stati compiuti progressi significativi attraverso l’integrazione di telecamere ad occhio nella mano, sia come complemento che come sostituto delle telecamere statiche convenzionali in terza persona.

Anche se le telecamere ad occhio nella mano hanno un enorme potenziale, non garantiscono risultati privi di errori. I modelli basati sulla visione spesso faticano con le fluttuazioni del mondo reale, come i cambiamenti di sfondo, l’illuminazione variabile e i cambiamenti nell’aspetto degli oggetti, che causano fragilità.

Per affrontare questa sfida, è emerso di recente un nuovo insieme di tecniche di generalizzazione. Invece di fare affidamento sui dati visivi, si insegnano ai robot determinate politiche di azione utilizzando dataset diversificati di dimostrazioni di robot. Funziona fino a un certo punto, ma c’è un grosso problema. È costoso, molto costoso. Raccogliere tali dati in un vero setup di robot significa compiti che richiedono molto tempo, come l’insegnamento cinestetico o la teleoperazione del robot tramite visori VR o joystick.

Abbiamo davvero bisogno di fare affidamento su questo dataset costoso? Dato che l’obiettivo principale dei robot è imitare gli esseri umani, perché non possiamo semplicemente utilizzare video di dimostrazioni umane? Questi video di umani che svolgono compiti offrono una soluzione più economica grazie all’agilità degli esseri umani. Farlo consente di catturare più dimostrazioni senza dover ripristinare costantemente il robot, risolvere problemi hardware o riposizionare faticosamente. Ciò solleva la possibilità intrigante di sfruttare le dimostrazioni video umane per migliorare le capacità di generalizzazione dei manipolatori robotici centrati sulla visione, su larga scala.

Tuttavia, colmare il divario tra il mondo umano e quello dei robot non è un gioco da ragazzi. Le differenze nell’aspetto tra gli esseri umani e i robot introducono uno spostamento nella distribuzione che richiede attenta considerazione. Incontriamo quindi una nuova ricerca, Dare una Mano ai Robot, che colma questa lacuna.

I metodi esistenti, che utilizzano punti di vista di telecamere in terza persona, hanno affrontato questa sfida con strategie di adattamento di dominio che coinvolgono traduzioni di immagini, rappresentazioni visive invarianti al dominio e persino l’utilizzo di informazioni chiave sugli stati umani e dei robot.

Panoramica di Dare una Mano ai Robot. Fonte: https://arxiv.org/pdf/2307.05959.pdf

In contrasto, Dare una Mano ai Robot prende una strada sorprendentemente semplice: mascherare una porzione coerente di ogni immagine, nascondendo efficacemente la mano umana o l’effettore terminale del robot. Questo metodo diretto evita la necessità di complesse tecniche di adattamento di dominio, consentendo ai robot di imparare direttamente le politiche di manipolazione dai video umani. Di conseguenza, risolve i problemi derivanti dai metodi espliciti di adattamento di dominio, come le evidenti inconsistenze visive derivanti dalle traduzioni di immagini da umano a robot.

Il metodo proposto può addestrare i robot a eseguire una varietà di compiti. Fonte: https://giving-robots-a-hand.github.io/

Il punto chiave di Dare una Mano ai Robot risiede nell’esplorazione del metodo. Un metodo che integra le ampie dimostrazioni video umane ad occhio nella mano per migliorare la generalizzazione dell’ambiente e del compito. Ottiene prestazioni sorprendenti in una serie di compiti di manipolazione robotica del mondo reale, tra cui raggiungere, afferrare, prendere e mettere, impilare cubi, pulire piatti, impacchettare giocattoli, ecc. Il metodo proposto migliora significativamente la generalizzazione. Abilita le politiche ad adattarsi a ambienti sconosciuti e compiti nuovi che non sono stati osservati durante le dimostrazioni dei robot. Si evidenzia un aumento medio del 58% nei tassi di successo assoluti in ambienti e compiti inesplorati, rispetto alle politiche addestrate esclusivamente sulle dimostrazioni dei robot.