Incontra RoboPianist Una nuova suite di benchmarking per il controllo ad alta dimensionalità nella padronanza del pianoforte con mani di robot simulate

Incontra RoboPianist, una nuova suite di benchmarking per il controllo ad alta dimensionalità nel pianoforte con mani di robot simulate.

Il processo di taratura nei domini del controllo e dell’apprendimento rinforzato è piuttosto sfidante. Un’area particolarmente trascurata sono i benchmark robusti che si concentrano sul controllo ad alta dimensionalità, incluso, in particolare, il “problema sfida” forse definitivo della robotica ad alta dimensionalità: il controllo bimanuale (a due mani) a multi-dita. Allo stesso tempo, alcuni sforzi di benchmarking nel controllo e nell’apprendimento rinforzato hanno iniziato a aggregare ed esplorare diversi aspetti della profondità. Nonostante decenni di ricerca sull’imitazione della destrezza della mano umana, il controllo ad alta dimensionalità nei robot continua ad essere una difficoltà significativa.

Un gruppo di ricercatori provenienti da UC Berkeley, Google, DeepMind, Stanford University e Simon Fraser University presenta una nuova suite di benchmark per il controllo ad alta dimensionalità chiamata ROBOPIANIST. Nel loro lavoro, le mani robotiche antropomorfe simulate bimanuali sono incaricate di suonare varie canzoni condizionate dalla partitura in una trascrizione MIDI (Musical Instrument Digital Interface). Le mani robotiche hanno in totale 44 attuatori, 22 attuatori per mano, simili al modo in cui le mani umane sono leggermente sottoattuate.

Per suonare bene una canzone è necessario essere in grado di sequenziare azioni in modi che mostrino molte delle qualità delle politiche di controllo ad alta dimensionalità. Ciò include:

  1. Precisione spaziale e temporale.
  2. Coordinazione di 2 mani e dieci dita.
  3. Pianificazione strategica di spinte chiave per facilitare altre pressioni di tasti.

La suite di benchmark originale ROBOPIANIST-repertoire-150 comprende 150 canzoni, ognuna delle quali serve come singolo lavoro virtuale. I ricercatori studiano l’ambiente delle prestazioni di metodi senza modello e basati su modello attraverso esperimenti completi come i metodi senza modello (RL) e basati su modello (MPC). I risultati suggeriscono che, nonostante ci sia molto spazio per il miglioramento, le politiche proposte possono produrre prestazioni solide.

La capacità di una politica di imparare una canzone può essere utilizzata per ordinare le canzoni (cioè i compiti) per difficoltà. I ricercatori ritengono che la capacità di raggruppare i compiti secondo tali criteri possa incoraggiare ulteriori studi in una serie di aree legate all’apprendimento dei robot, come il curriculum e l’apprendimento di trasferimento. RoboPianist offre interessanti possibilità per varie approcci di studio, come l’apprendimento per imitazione, l’apprendimento multi-task, la generalizzazione a zero-shot e l’apprendimento multimodale (suono, visione e tatto). Nel complesso, ROBOPIANIST presenta un obiettivo semplice, un ambiente facile da replicare, criteri di valutazione chiari ed è aperto a varie potenzialità di estensione in futuro.