Dal controllo dei motori all’intelligenza incarnata

Dal controllo dei motori all'incarnazione dell'intelligenza.

Usare i movimenti umani e animali per insegnare ai robot a palloneggiare e a personaggi umani simulati a trasportare scatole e giocare a calcio

Personaggio umanoide che impara a superare un percorso ad ostacoli attraverso il metodo di prova ed errore, che può portare a soluzioni idiosincratiche. Heess, et al. "Emergence of locomotion behaviours in rich environments" (2017).

Cinque anni fa, abbiamo affrontato la sfida di insegnare a un personaggio umanoide completamente articolato a superare percorsi ad ostacoli. Ciò ha dimostrato cosa può ottenere l’apprendimento per rinforzo (RL) attraverso il metodo di prova ed errore, ma ha anche evidenziato due sfide nel risolvere l’intelligenza incorporata:

  1. Riutilizzo dei comportamenti appresi in precedenza: È stato necessario un quantitativo significativo di dati affinché l’agente “si mettesse in moto”. Senza alcuna conoscenza iniziale su quale forza applicare a ciascuna delle sue articolazioni, l’agente ha iniziato con scosse casuali del corpo e rapidamente è caduto a terra. Questo problema potrebbe essere alleviato riutilizzando i comportamenti appresi in precedenza.
  2. Comportamenti idiosincratici: Quando l’agente ha finalmente imparato a navigare nei percorsi ad ostacoli, lo ha fatto con modelli di movimento innaturali (seppur divertenti) che sarebbero poco pratici per applicazioni come la robotica.

In questo articolo descriviamo una soluzione a entrambe le sfide chiamata neural probabilistic motor primitives (NPMP), che coinvolge l’apprendimento guidato con modelli di movimento derivati da esseri umani e animali, e discutiamo come questo approccio viene utilizzato nel nostro articolo sul calcio umanoide, pubblicato oggi su Science Robotics.

Discutiamo anche come lo stesso approccio consente la manipolazione completa del corpo umanoide dalla visione, come ad esempio un umanoide che trasporta un oggetto, e il controllo robotico nel mondo reale, come ad esempio un robot che palloneggia.

Distillazione dei dati in motor primitives controllabili utilizzando NPMP

Un NPMP è un modulo di controllo motore ad uso generale che traduce intenzioni motorie a breve termine in segnali di controllo a basso livello, ed è addestrato offline o tramite RL imitando dati di motion capture (MoCap), registrati con tracker su esseri umani o animali che eseguono movimenti di interesse.

Un agente che impara a imitare una traiettoria MoCap (mostrata in grigio).

Il modello ha due parti:

  1. Un codificatore che prende una traiettoria futura e la comprime in un’intenzione motoria.
  2. Un controllore a basso livello che produce l’azione successiva dato lo stato attuale dell’agente e questa intenzione motoria.
Il nostro modello NPMP distilla prima i dati di riferimento in un controllore a basso livello (a sinistra). Questo controllore a basso livello può poi essere utilizzato come modulo di controllo motore plug-and-play su un nuovo compito (a destra).

Dopo l’addestramento, il controller a basso livello può essere riutilizzato per apprendere nuovi compiti, mentre un controller ad alto livello viene ottimizzato per produrre direttamente intenzioni motorie. Ciò consente una esplorazione efficiente – poiché vengono prodotti comportamenti coerenti, anche con intenzioni motorie campionate casualmente – e limita la soluzione finale.

Coordinazione emergente del team nel calcio umanoide

Il calcio è da tempo una sfida per la ricerca sull’intelligenza incorporata, richiedendo abilità individuali e gioco di squadra coordinato. Nel nostro ultimo lavoro, abbiamo utilizzato un NPMP come base per guidare l’apprendimento delle abilità di movimento.

Il risultato è stato una squadra di giocatori che ha progredito dall’apprendimento delle abilità di inseguimento del pallone, fino a imparare a coordinarsi. In precedenza, in uno studio con semplici incarnazioni, avevamo dimostrato che il comportamento coordinato può emergere in squadre che competono tra loro. L’NPMP ci ha permesso di osservare un effetto simile ma in uno scenario che richiedeva un controllo motorio significativamente più avanzato.

Gli agenti imitano prima il movimento dei giocatori di calcio per apprendere un modulo NPMP (in alto). Utilizzando l'NPMP, gli agenti imparano quindi abilità specifiche del calcio (in basso).

I nostri agenti hanno acquisito abilità tra cui locomozione agile, passaggi e divisione del lavoro, come dimostrato da una serie di statistiche, incluse metriche utilizzate nell’analisi sportiva del mondo reale. I giocatori mostrano sia un controllo motorio agile ad alta frequenza che una decisione a lungo termine che comporta l’anticipazione dei comportamenti dei compagni di squadra, portando a un gioco di squadra coordinato.

Un agente impara a giocare a calcio in modo competitivo utilizzando RL multi-agente.

Manipolazione dell’intero corpo e compiti cognitivi utilizzando la visione

Imparare a interagire con oggetti utilizzando le braccia rappresenta un altro difficile sfida di controllo. L’NPMP può consentire anche questo tipo di manipolazione dell’intero corpo. Con una piccola quantità di dati MoCap di interazione con scatole, siamo in grado di addestrare un agente a trasportare una scatola da una posizione all’altra, utilizzando la visione egocentrica e con un solo segnale di ricompensa sparso:

Con una piccola quantità di dati MoCap (in alto), il nostro approccio NPMP può risolvere un compito di trasporto di scatole (in basso).

Allo stesso modo, possiamo insegnare all’agente a prendere e lanciare palloni:

Umanoide simulato che prende e lancia una palla.

Utilizzando l’NPMP, possiamo affrontare anche compiti di labirinto che coinvolgono locomozione, percezione e memoria:

Umanoide simulato che raccoglie sfere blu in un labirinto.

Controllo sicuro ed efficiente di robot del mondo reale

Il NPMP può anche aiutare a controllare robot reali. Avere un comportamento ben regolarizzato è fondamentale per attività come camminare su terreni accidentati o manipolare oggetti fragili. Movimenti irregolari possono danneggiare il robot stesso o l’ambiente circostante, o almeno scaricare la sua batteria. Pertanto, spesso si investe un notevole sforzo nella progettazione di obiettivi di apprendimento che permettano al robot di fare ciò che vogliamo, comportandosi in modo sicuro ed efficiente.

Come alternativa, abbiamo indagato se l’utilizzo di priorità derivate dal movimento biologico può fornirci abilità di movimento ben regolarizzate, dall’aspetto naturale e riutilizzabili per robot a gambe, come camminare, correre e girare, che sono adatte per essere utilizzate su robot del mondo reale.

Partendo dai dati MoCap degli esseri umani e dei cani, abbiamo adattato l’approccio NPMP per addestrare abilità e controller in simulazione che possono poi essere utilizzati su robot umanoidi reali (OP3) e robot quadrupedi (ANYmal B), rispettivamente. Ciò ha permesso ai robot di essere guidati da un utente tramite un joystick o di palleggiare una palla verso una posizione target in modo naturale e robusto.

Le abilità di locomozione per il robot ANYmal sono apprese imitando il MoCap del cane.

Le abilità di locomozione possono poi essere riutilizzate per camminare in modo controllato e palleggiare una palla.

Vantaggi dell’utilizzo di primitive motorie neurali probabilistiche

In sintesi, abbiamo utilizzato il modello di abilità NPMP per imparare compiti complessi con personaggi umanoidi in simulazione e robot del mondo reale. L’NPMP raggruppa le abilità di movimento a basso livello in modo riutilizzabile, rendendo più facile imparare comportamenti utili che sarebbero difficili da scoprire tramite tentativi ed errori non strutturati. Utilizzando la motion capture come fonte di informazioni precedenti, si orienta l’apprendimento del controllo motorio verso movimenti naturalistici.

L’NPMP consente agli agenti incarnati di imparare più rapidamente utilizzando RL; di imparare comportamenti più naturalistici; di imparare comportamenti più sicuri, efficienti e stabili adatti alla robotica del mondo reale; e di combinare il controllo motorio del corpo intero con abilità cognitive a lungo termine, come il lavoro di squadra e la coordinazione.

Scopri di più sul nostro lavoro :

  • Vedi riferimenti di ricerca selezionati .
  • Leggi il nostro articolo su Humanoid Football in Science Robotics o guarda il video riassuntivo .
  • Leggi il nostro articolo sul controllo di tutto il corpo umanoide o guarda il video riassuntivo .
  • Leggi il nostro articolo sul controllo di robot del mondo reale o guarda il video riassuntivo .