Google DeepMind rilascia Open X-Embodiment che include un dataset di robotica con 1M+ traiettorie e un modello di intelligenza artificiale generalista (𝗥𝗧-X) per aiutare ad avanzare nel modo in cui i robot possono imparare nuove abilità.

Le ultime innovazioni nei campi dell’intelligenza artificiale e dell’apprendimento automatico hanno dimostrato la capacità di imparare su larga scala da set di dati variegati e vasti per sviluppare sistemi di intelligenza artificiale estremamente efficaci. I migliori esempi sono la creazione di modelli preaddestrati ad uso generale, che spesso superano i loro omologhi specializzati addestrati su dati più limitati e specifici. Rispetto a modelli addestrati su dati specializzati e limitati, i classificatori di immagini ad ampio vocabolario e i grandi modelli di linguaggio mostrano una maggiore performance.

Tuttavia, raccogliere set di dati comparabili per l’interazione robotica è una sfida, a differenza della visione artificiale e dell’elaborazione del linguaggio naturale (NLP), dove è possibile accedere facilmente a grandi set di dati dal web. Anche le iniziative di raccolta dati più ampie nella robotica spesso producono set di dati molto più piccoli e meno diversificati rispetto ai benchmark di visione e NLP. Questi set di dati si concentrano spesso su determinate posizioni, oggetti o gruppi di task limitati.

Per superare gli ostacoli nella robotica e avvicinarsi a un regime di dati massicci simile a quello che ha funzionato in altri campi, un team di ricercatori ha proposto una soluzione ispirata alla generalizzazione ottenuta addestrando modelli di visione o linguaggio su dati diversificati. Il team ha condiviso che l’addestramento X-embodiment, che utilizza dati provenienti da diverse piattaforme robotiche, è necessario per sviluppare politiche robot generalizzabili.

Il team ha condiviso il loro Repository Open X-Embodiment (OXE), che include un set di dati con 22 diverse incarnazioni robotiche provenienti da 21 istituti, insieme ad strumenti open-source per favorire ulteriori ricerche su modelli X-embodiment. Questo set di dati dimostra più di 500 abilità e 150.000 task in oltre 1 milione di episodi. L’obiettivo principale è dimostrare che le politiche apprese utilizzando dati provenienti da diversi robot e ambienti possono beneficiare del trasferimento positivo e ottenere migliori performance rispetto a quelle addestrate solo con dati da una particolare configurazione di valutazione.

I ricercatori hanno addestrato il modello ad alta capacità RT-X su questo set di dati. La principale scoperta dello studio è che RT-X mostra un trasferimento positivo. Utilizzando la conoscenza appresa da diverse piattaforme robotiche, l’addestramento del modello su questo ampio set di dati consente di migliorare le capacità di più robot. Questa scoperta implica che sia fattibile creare regole generaliste per la robotica che siano flessibili ed efficaci in una varietà di contesti robotici.

Il team ha utilizzato un ampio set di dati di robotica per addestrare due modelli. Il grande modello visione-linguaggio RT-2 e l’efficace modello basato su Transformer RT-1 sono stati addestrati per produrre azioni robotiche in un formato vettoriale a 7 dimensioni che rappresenta posizione, orientamento e dati correlati all’attuatore. Questi modelli sono progettati per rendere più facile per i robot gestire e manipolare oggetti. Possono anche consentire una migliore generalizzazione su una gamma più ampia di applicazioni e scenari robotici.

In conclusione, lo studio parla dell’idea di combinare modelli preaddestrati nella robotica, proprio come è stato fatto con successo nell’elaborazione del linguaggio naturale e nella visione artificiale. I risultati sperimentali mostrano l’efficacia potenziale di queste strategie robot X-generaliste nel contesto della manipolazione robotica.