Implementare l’apprendimento su diverse tipologie di robot

Espandere la conoscenza sulle diverse tipologie di robot

Insieme ai partner di 33 laboratori accademici, abbiamo raccolto dati da 22 tipi di robot diversi per creare il dataset X-Embodiment aperto e il modello RT-X

I robot sono grandi specialisti ma pessimi generalisti. Di solito, è necessario addestrare un modello per ogni compito, robot e ambiente. Cambiare una variabile singola spesso richiede di ricominciare da capo. Ma se potessimo combinare la conoscenza nel campo della robotica e creare un modo per addestrare un robot a uso generale? Oggi lanciamo una nuova serie di risorse per l’apprendimento di robot a uso generale su diversi tipi di robot, o embodiment. Insieme ai partner di 33 laboratori accademici, abbiamo raccolto dati da 22 tipi di robot diversi per creare il dataset X-Embodiment aperto. Rilasciamo anche il modello RT-1-X, un modello di trasformazione robotica (RT) derivato da RT-1 ed addestrato sul nostro dataset, che dimostra il trasferimento di abilità su diverse embodiment di robot.

In questo lavoro, dimostriamo che addestrare un singolo modello su dati provenienti da diverse embodiment porta a performance significativamente migliori su molti robot rispetto a quelli addestrati su dati provenienti da singole embodiment. Abbiamo testato il nostro modello RT-1-X in cinque diversi laboratori di ricerca, dimostrando un miglioramento del 50% nel tasso di successo in media su cinque diversi robot comunemente utilizzati rispetto ai metodi sviluppati in modo indipendente e specificamente per ciascun robot. Abbiamo anche dimostrato che addestrando il nostro modello di azione del linguaggio visivo, RT-2, su dati provenienti da diverse embodiment, le sue performance sulle abilità robotiche del mondo reale sono triplicate.

Abbiamo sviluppato questi strumenti per far avanzare collettivamente la ricerca cross-embodiment nella comunità della robotica. Il dataset X-Embodiment aperto e il checkpoint del modello RT-1-X sono ora disponibili per il beneficio della comunità di ricerca più ampia, grazie al lavoro dei laboratori di robotica di tutto il mondo che hanno condiviso dati e aiutato a valutare il nostro modello con un impegno nello sviluppare questa tecnologia in modo aperto e responsabile. Crediamo che questi strumenti trasformeranno il modo in cui i robot vengono addestrati e accelereranno questo campo di ricerca.

Dataset X-Embodiment aperto: Raccogliere dati per addestrare robot AI

I dataset, e i modelli addestrati su di essi, hanno svolto un ruolo critico nello sviluppo dell’AI. Proprio come ImageNet ha propulso la ricerca sulla visione artificiale, crediamo che il dataset X-Embodiment aperto possa fare lo stesso per l’avanzamento della robotica. Costruire un dataset di dimostrazioni di robot diversi è il passo chiave per addestrare un modello generalista che può controllare molti tipi di robot diversi, seguire istruzioni diverse, svolgere ragionamenti di base su compiti complessi e generalizzare in modo efficace. Tuttavia, raccogliere un tale dataset richiede troppe risorse per un singolo laboratorio.

Per sviluppare il dataset X-Embodiment aperto, abbiamo stretto partnership con laboratori di ricerca accademici di oltre 20 istituti per raccogliere dati da 22 embodiment di robot, dimostrando più di 500 abilità e 150.000 compiti in oltre 1 milione di episodi. Questo dataset è il dataset sulla robotica più completo del suo genere.

Esempi dal dataset X-Embodiment aperto che dimostrano più di 500 abilità e 150.000 compiti.
Il dataset X-Embodiment aperto combina dati tra le diverse embodiment, dataset e abilità.

RT-X: Un modello di robotica multiuso

RT-X si basa su due dei nostri modelli di trasformatori per la robotica. Abbiamo addestrato RT-1-X utilizzando RT-1, il nostro modello per il controllo robotico in scala reale, e abbiamo addestrato RT-2-X su RT-2, il nostro modello visione-linguaggio-azione (VLA) che impara dai dati web e robotici. Attraverso questo, dimostriamo che dato lo stesso tipo di architettura del modello, RT-1-X e RT-2-X sono in grado di ottenere prestazioni migliori grazie a dati molto più diversificati e interconnessi su diversi ambiti. Dimostriamo inoltre che superano i modelli addestrati in specifici settori e mostrano una migliore generalizzazione e nuove capacità. Per valutare RT-1-X nelle università partner, abbiamo confrontato le sue prestazioni rispetto ai modelli sviluppati per compiti specifici, come l’apertura di una porta, utilizzando i corrispondenti set di dati. In media, RT-1-X addestrato con il dataset Open X-Embodiment ha superato il modello originale del 50%.

Il tasso medio di successo di RT-1-X è del 50% superiore rispetto al metodo originale corrispondente.
Video delle valutazioni di RT-1-X eseguite presso diverse università partner

Competenze emergenti in RT-X

Per indagare il trasferimento di conoscenze tra i robot, conduciamo esperimenti con il nostro robot assistente su compiti che coinvolgono oggetti e abilità non presenti nel dataset di RT-2, ma che esistono in un altro dataset per un robot diverso. In particolare, RT-2-X è stato tre volte più efficace del nostro miglior modello precedente, RT-2, per competenze emergenti.

I nostri risultati suggeriscono che l’addestramento con dati provenienti da altre piattaforme fornisce a RT-2-X abilità aggiuntive che non erano presenti nel dataset originale, consentendogli di svolgere nuovi compiti.

RT-2-X dimostra la comprensione delle relazioni spaziali tra gli oggetti.

RT-2-X manifesta abilità che il modello RT-2 non era in grado di esprimere in precedenza, inclusa una migliore comprensione spaziale. Ad esempio, se chiediamo al robot di “spostare la mela vicino al tessuto” invece di “spostare la mela sul tessuto”, le traiettorie sono molto diverse. Cambiando la preposizione da “vicino” a “su”, possiamo modulare le azioni che il robot intraprende.

RT-2-X dimostra che combinando dati provenienti da altri robot nell’addestramento, si amplia la gamma di compiti che possono essere eseguiti anche da un robot che già dispone di una grande quantità di dati, ma solo utilizzando un’architettura di capacità sufficientemente elevata.

RT-2-X (55B): uno dei più grandi modelli finora a eseguire compiti invisibili in un laboratorio accademico

Avanzare responsabilmente nella ricerca sulla robotica

La ricerca sulla robotica si trova in una fase entusiasmante, ma ancora iniziale. Nuove ricerche mostrano il potenziale di sviluppare robot assistenti più utili attraverso l’apprendimento scalabile con dati più diversificati e modelli migliori. Lavorare in collaborazione con laboratori di tutto il mondo e condividere le risorse è fondamentale per avanzare nella ricerca sulla robotica in modo aperto e responsabile. Speriamo che la condivisione aperta dei dati e la fornitura di modelli sicuri ma limitati riducano le barriere e accelerino la ricerca. Il futuro della robotica si basa su abilitare i robot ad apprendere gli uni dagli altri e, soprattutto, permettere ai ricercatori di imparare l’uno dagli altri.

Questo lavoro dimostra che sono possibili modelli che generalizzano attraverso diversi apparati, con miglioramenti significativi delle prestazioni sia con i robot qui a Google DeepMind che sui robot delle diverse università di tutto il mondo. Ricerche future potrebbero esplorare come combinare questi progressi con la capacità di auto-miglioramento di RoboCat per consentire ai modelli di migliorare con la propria esperienza. Un’altra possibile direzione futura potrebbe essere quella di approfondire come diverse combinazioni di dataset possano influire sulla generalizzazione tra diversi apparati e come questa generalizzazione migliorata si manifesta.

Leggi il nostro articolo: https://robotics-transformer-x.github.io/paper.pdf

Accedi ai nostri dati e modelli: https://robotics-transformer-x.github.io/

Raggiungici come partner: [email protected]