RoboCat Un agente robotico auto-migliorante

RoboCat un agente robotico auto-migliorante.

Il nuovo agente della fondazione impara a operare con diversi bracci robotici, risolve compiti con soli 100 esempi e migliora con dati auto-generati.

I robot stanno diventando rapidamente parte della nostra vita quotidiana, ma spesso sono programmati solo per svolgere specifici compiti. Se sfruttassimo i recenti progressi dell’Intelligenza Artificiale potremmo avere robot capaci di aiutarci in molti altri modi, tuttavia la costruzione di robot multiuso è più lenta a causa del tempo necessario per raccogliere dati di addestramento nel mondo reale.

Il nostro ultimo articolo introduce un agente di Intelligenza Artificiale auto-migliorante per la robotica, RoboCat, che impara a svolgere una varietà di compiti con diversi bracci, e genera autonomamente nuovi dati di addestramento per migliorare la sua tecnica.

Ricerche precedenti hanno esplorato come sviluppare robot in grado di apprendere multitasking su larga scala e combinare la comprensione di modelli linguistici con le capacità reali di un robot assistente. RoboCat è il primo agente in grado di risolvere e adattarsi a compiti multipli su diversi robot reali.

RoboCat impara molto più velocemente rispetto ad altri modelli all’avanguardia. Può imparare un nuovo compito con soli 100 esempi grazie a un ampio e diversificato dataset. Questa capacità aiuterà ad accelerare la ricerca nella robotica, riducendo la necessità di addestramento supervisionato da parte umana, ed è un passo importante verso la creazione di un robot multiuso.

Come RoboCat si migliora

RoboCat si basa sul nostro modello multimodale Gato (spagnolo per “gatto”), che può elaborare linguaggio, immagini e azioni sia in ambienti simulati che fisici. Abbiamo combinato l’architettura di Gato con un ampio dataset di addestramento di sequenze di immagini e azioni di vari bracci robotici che risolvono centinaia di compiti diversi.

Dopo questa prima fase di addestramento, abbiamo avviato RoboCat in un ciclo di addestramento di “auto-miglioramento” con un insieme di compiti precedentemente non visti. L’apprendimento di ogni nuovo compito è seguito da cinque fasi:

  1. Raccogliere 100-1000 esempi di un nuovo compito o robot, utilizzando un braccio robotico controllato da un umano.
  2. Perfezionare RoboCat su questo nuovo compito/braccio, creando un agente specializzato derivato.
  3. L’agente derivato pratica su questo nuovo compito/braccio una media di 10.000 volte, generando ulteriori dati di addestramento.
  4. Incorporare i dati delle dimostrazioni e i dati auto-generati nel dataset di addestramento esistente di RoboCat.
  5. Addestrare una nuova versione di RoboCat sul nuovo dataset di addestramento.
Il ciclo di addestramento di RoboCat, potenziato dalla sua capacità di generare autonomamente dati di addestramento aggiuntivi.

La combinazione di tutto questo addestramento significa che l’ultimo RoboCat si basa su un dataset di milioni di traiettorie, sia da bracci robotici reali che simulati, includendo dati auto-generati. Abbiamo utilizzato quattro tipi di robot e molti bracci robotici per raccogliere dati basati sulla visione che rappresentano i compiti che RoboCat sarebbe stato addestrato a svolgere.

RoboCat apprende da una vasta gamma di tipi di dati e compiti di addestramento: video di un braccio robotico reale che prende delle ingranaggi, un braccio simulato che impila blocchi e RoboCat che utilizza un braccio robotico per raccogliere un cetriolo.

Imparare ad operare nuovi bracci robotici e risolvere compiti più complessi

Con la formazione diversificata di RoboCat, ha imparato ad operare diversi bracci robotici in poche ore. Sebbene fosse stato addestrato su bracci con pinze a due punte, è stato in grado di adattarsi a un braccio più complesso con una pinza a tre dita e il doppio dei controlli gestibili.

Sinistra: Un nuovo braccio robotico che RoboCat ha imparato a controllare ‍ Destra: Video di RoboCat che utilizza il braccio per raccogliere ingranaggi

Dopo aver osservato 1000 dimostrazioni controllate dall’uomo, raccolte in poche ore, RoboCat è stato in grado di dirigere questo nuovo braccio abbastanza agilmente da riuscire a raccogliere ingranaggi con successo nell’86% dei casi. Con lo stesso livello di dimostrazioni, è stato in grado di adattarsi a risolvere compiti che combinavano precisione e comprensione, come rimuovere il frutto corretto da una ciotola e risolvere un rompicapo di corrispondenza di forme, che sono necessari per un controllo più complesso.

Esempi di compiti a cui RoboCat può adattarsi a risolvere dopo 500-1000 dimostrazioni.

Il generalista che si auto-migliora

RoboCat ha un ciclo virtuoso di formazione: più compiti nuovi impara, migliore diventa nell’apprendere ulteriori nuovi compiti. La versione iniziale di RoboCat aveva successo solo nel 36% dei casi su compiti precedentemente non visti, dopo aver appreso da 500 dimostrazioni per compito. Ma l’ultima versione di RoboCat, che si era allenata su una maggiore diversità di compiti, ha più che raddoppiato questo tasso di successo sugli stessi compiti.

La grande differenza di prestazioni tra la versione iniziale di RoboCat (una sessione di addestramento) rispetto alla versione finale (addestramento esteso e diversificato, inclusa l'auto-miglioramento) dopo che entrambe le versioni sono state ottimizzate con 500 dimostrazioni di compiti precedentemente non visti.

Questi miglioramenti sono dovuti alla crescente esperienza di RoboCat, simile al modo in cui le persone sviluppano una gamma più diversificata di competenze man mano che approfondiscono il loro apprendimento in un determinato ambito. La capacità di RoboCat di imparare autonomamente competenze e migliorarsi rapidamente, soprattutto quando applicato a dispositivi robotici diversi, contribuirà a tracciare la strada verso una nuova generazione di agenti robotici più utili e versatili.

Leggi il nostro articolo su arXiv: https://arxiv.org/abs/2306.11706