I ricercatori di Google DeepMind presentano RT-2 un nuovo modello Visione-Linguaggio-Azione (VLA) che impara sia dai dati web che da quelli robotici e li trasforma in azione.

Google DeepMind presenta RT-2, un nuovo modello VLA che apprende sia dai dati web che da quelli robotici per generare azioni.

I grandi modelli di linguaggio possono consentire la generazione fluida di testi, la risoluzione emergente dei problemi e la generazione creativa di prosa e codice. Al contrario, i modelli di visione-linguaggio consentono il riconoscimento visivo a vocabolario aperto e possono persino effettuare inferenze complesse sulle interazioni oggetto-agente nelle immagini. La migliore modalità affinché i robot apprendano nuove abilità deve essere chiarita. Rispetto ai miliardi di token e foto utilizzati per addestrare i modelli di linguaggio più avanzati e i modelli di visione-linguaggio sul web, la quantità di dati raccolti dai robot è improbabile che sia comparabile. Tuttavia, è anche difficile adattare immediatamente tali modelli alle attività dei robot poiché questi modelli ragionano sulla semantica, le etichette e gli input testuali. Al contrario, i robot devono essere istruiti in azioni di basso livello, come quelle che utilizzano l’effettore terminale cartesiano.

La ricerca di Google DeepMind mira a migliorare la generalizzazione e consentire il ragionamento semantico emergente incorporando direttamente modelli di visione-linguaggio addestrati su dati di scala Internet nel controllo robotico end-to-end. Con l’aiuto di dati basati sul linguaggio web e sulla visione-linguaggio, miriamo a creare un singolo modello addestrato in modo completo per imparare a collegare le osservazioni dei robot alle azioni. Propongono un metodo di messa a punto dei modelli di visione-linguaggio all’avanguardia utilizzando insieme i dati delle traiettorie dei robot e gli esercizi di domande-risposte visuali su larga scala condotti su Internet. Rispetto ad altri metodi, propongono una ricetta diretta e versatile: esprimere le azioni dei robot come token di testo e incorporarle direttamente nell’insieme di addestramento del modello come farebbero i token di linguaggio naturale. I ricercatori studiano i modelli di visione-linguaggio-azione (VLA), e RT-2 istanzia uno di tali modelli. Attraverso rigorosi test (6k prove di valutazione), è stato possibile accertare che RT-2 ha acquisito varie abilità emergenti attraverso l’addestramento su larga scala e che la tecnica ha portato a politiche robotiche performanti.

Google DeepMind ha presentato RT-2, un modello basato su Transformer addestrato su testi e immagini provenienti dal web che può eseguire direttamente operazioni robotiche, come un seguito del suo modello Robotics Transformer 1. Utilizzano le azioni dei robot per rappresentare un secondo linguaggio che può essere convertito in token di testo e insegnato insieme ai dataset di visione-linguaggio su larga scala disponibili online. L’inferenza comporta la detokenizzazione dei token di testo in comportamenti dei robot che possono quindi essere controllati tramite un ciclo di feedback. Ciò consente di trasferire parte della generalizzazione, la comprensione semantica e il ragionamento dei modelli di visione-linguaggio all’apprendimento delle politiche robotiche. Sul sito web del progetto, accessibile su https://robotics-transformer2.github.io/, il team dietro RT-2 fornisce dimostrazioni live del suo utilizzo.

Il modello conserva la capacità di utilizzare le proprie abilità fisiche in modo coerente con la distribuzione trovata nei dati dei robot. Tuttavia, impara anche a utilizzare tali abilità in contesti nuovi leggendo immagini e comandi linguistici utilizzando le conoscenze raccolte dal web. Anche se i segnali semantici come numeri precisi o icone non sono inclusi nei dati dei robot, il modello può riutilizzare le sue abilità apprese di prendere e posizionare oggetti. Nessuna relazione del genere è stata fornita nelle dimostrazioni dei robot, eppure il modello è stato in grado di prendere l’oggetto corretto e posizionarlo nella posizione corretta. Inoltre, il modello può effettuare inferenze semantiche ancora più complesse se il comando è integrato da una catena di pensieri, ad esempio sapendo che un sasso è la scelta migliore per un martello improvvisato o una bevanda energetica è la scelta migliore per chi è stanco.

Il contributo chiave di Google DeepMind è RT-2, una famiglia di modelli creata mediante messa a punto di enormi modelli di visione-linguaggio addestrati su dati di scala web per fungere da regole robotiche generalizzabili e semanticamente consapevoli. Gli esperimenti testano modelli con fino a 55 miliardi di parametri, appresi da dati disponibili pubblicamente e annotati con comandi di movimento dei robot. Attraverso 6.000 valutazioni robotiche, dimostrano che RT-2 consente notevoli progressi nella generalizzazione su oggetti, scene e istruzioni e mostra una serie di abilità emergenti che sono un risultato dell’addestramento su larga scala di visione-linguaggio.

Caratteristiche principali

  • Le capacità di ragionamento, interpretazione dei simboli e identificazione umana di RT-2 possono essere utilizzate in una vasta gamma di scenari pratici.
  • I risultati di RT-2 dimostrano che la preformazione di VLM utilizzando dati robotici può trasformarli in modelli di visione-linguaggio-azione (VLA) potenti che possono controllare direttamente un robot.
  • Una direzione promettente da perseguire è quella di costruire un robot fisico generale che possa pensare, risolvere problemi e interpretare informazioni per completare varie attività nel mondo reale, come RT-2.
  • La sua adattabilità ed efficienza nell’affrontare diverse attività sono dimostrate dalla capacità di RT-2 di trasferire informazioni dai dati di addestramento linguistico e visivo ai movimenti del robot.

Limitazioni

Nonostante le sue promettenti proprietà di generalizzazione, RT-2 presenta diversi svantaggi. Anche se gli studi suggeriscono che l’incorporazione di preaddestramento su larga scala tramite VLM migliora la generalizzazione tra i concetti semantici e visivi, questo non conferisce al robot nuove capacità per quanto riguarda la sua capacità di eseguire movimenti. Anche se il modello può utilizzare solo le capacità fisiche presenti nei dati del robot in modi nuovi, impara a utilizzare meglio le sue capacità. Questo è attribuito alla necessità di maggiore diversità nel campione lungo le dimensioni di competenza. Nuovi paradigmi di raccolta dati, come i filmati degli esseri umani, rappresentano un’opportunità interessante per future ricerche sulla acquisizione di nuove abilità.

Per riassumere, i ricercatori di Google DeepMind hanno dimostrato che i modelli VLA di grandi dimensioni possono essere eseguiti in tempo reale, ma a un costo computazionale considerevole. Poiché questi metodi vengono applicati a situazioni che richiedono un controllo ad alta frequenza, i rischi di inferenza in tempo reale diventano un ostacolo significativo. Approcci di quantizzazione e distillazione che potrebbero consentire a tali modelli di operare più velocemente o su hardware più economico sono ambiti interessanti per future ricerche. Ciò è correlato a un’altra restrizione esistente, ovvero che relativamente pochi modelli VLM possono essere utilizzati per sviluppare RT-2.

I ricercatori di Google DeepMind hanno riassunto il processo di addestramento dei modelli visione-linguaggio-azione (VLA) integrando il preaddestramento con modelli visione-linguaggio (VLM) e dati provenienti dalla robotica. Hanno quindi introdotto due varianti di VLAs (RT-2-PaLM-E e RT-2-PaLI-X) che sono rispettivamente ispirate a PaLM-E e PaLI-X. Questi modelli vengono messi a punto con dati sulle traiettorie robotiche per generare azioni del robot, che vengono tokenizzate come testo. In modo ancora più cruciale, hanno dimostrato che la tecnica migliora le prestazioni di generalizzazione e le capacità emergenti ereditate dal preaddestramento su larga scala di visione-linguaggio, portando a politiche robotiche molto efficaci. Secondo Google DeepMind, la disciplina dell’apprendimento dei robot è ora strategicamente posizionata per trarre vantaggio dai miglioramenti in altri campi grazie a questa metodologia semplice e universale.