Robot parlante Il nostro nuovo modello di intelligenza artificiale traduce la visione e il linguaggio in azioni robotiche

Robot parlante IA traduce visione e linguaggio in azioni

Da decenni, quando le persone hanno immaginato il futuro remoto, hanno quasi sempre incluso un ruolo principale per i robot. I robot sono stati descritti come affidabili, utili e persino affascinanti. Tuttavia, nel corso degli stessi decenni, la tecnologia è rimasta elusiva, bloccata nell’immaginario dei romanzi di fantascienza.

Oggi, presentiamo un nuovo avanzamento nella robotica che ci avvicina a un futuro con robot utili. Robotics Transformer 2, o RT-2, è un modello di visione-linguaggio-azione (VLA) unico nel suo genere. Un modello basato su Transformer addestrato su testi e immagini dal web, RT-2 può produrre direttamente azioni robotiche. Proprio come i modelli di linguaggio vengono addestrati su testi dal web per apprendere idee e concetti generali, RT-2 trasferisce conoscenze dai dati web per influenzare il comportamento dei robot.

In altre parole, RT-2 può parlare da robot.

Le sfide del mondo reale nell’apprendimento dei robot

La ricerca di robot utili è sempre stata un’impresa titanica, perché un robot in grado di svolgere compiti generali nel mondo deve essere in grado di gestire compiti complessi e astratti in ambienti altamente variabili, specialmente quelli che non ha mai visto prima.

A differenza dei chatbot, i robot hanno bisogno di “radicamento” nel mondo reale e delle loro capacità. La loro formazione non riguarda solo, ad esempio, l’apprendimento di tutto ciò che c’è da sapere su una mela: come cresce, le sue proprietà fisiche o persino il fatto che una sia caduta sulla testa di Sir Isaac Newton. Un robot deve essere in grado di riconoscere una mela in contesto, distinguerla da una palla rossa, capire come si presenta e, soprattutto, saperla raccogliere.

Tradizionalmente, questo richiedeva di addestrare i robot su miliardi di punti dati, di prima mano, su ogni singolo oggetto, ambiente, compito e situazione nel mondo fisico: una prospettiva così dispendiosa in termini di tempo e costi da renderla impraticabile per gli innovatori. L’apprendimento è un’impresa impegnativa, ancora di più per i robot.

Un nuovo approccio con RT-2

Recenti studi hanno migliorato la capacità dei robot di ragionare, consentendo loro persino di utilizzare la logica concatenata per risolvere problemi complessi. L’introduzione di modelli di visione, come PaLM-E, ha aiutato i robot a comprendere meglio l’ambiente circostante. E RT-1 ha dimostrato che i Transformer, noti per la loro capacità di generalizzare le informazioni tra i sistemi, possono persino aiutare diversi tipi di robot ad apprendere reciprocamente.

Tuttavia, fino ad oggi i robot si basavano su complessi insiemi di sistemi, con sistemi di ragionamento di alto livello e sistemi di manipolazione di basso livello che giocavano un gioco imperfetto di “telefono senza fili” per far funzionare il robot. Immagina di pensare a cosa vuoi fare, e poi dover comunicare quelle azioni al resto del corpo per riuscire a muoverti. RT-2 rimuove questa complessità e permette a un singolo modello di non solo eseguire il ragionamento complesso dei modelli di base, ma anche produrre azioni robotiche. In modo ancora più importante, mostra che con una piccola quantità di dati di addestramento dei robot, il sistema è in grado di trasferire concetti incorporati nei dati di addestramento di linguaggio e visione per guidare le azioni del robot, anche per compiti per cui non è mai stato addestrato.

Ad esempio, se volessi che i sistemi precedenti fossero in grado di gettare via un pezzo di spazzatura, dovresti addestrarli esplicitamente a identificare la spazzatura, nonché a raccoglierla e buttarla via. Poiché RT-2 è in grado di trasferire conoscenze da un ampio corpus di dati web, ha già un’idea di cosa sia la spazzatura e può identificarla senza addestramento esplicito. Ha persino un’idea di come gettare via la spazzatura, anche se non è stato addestrato a compiere quell’azione. E pensa alla natura astratta della spazzatura: quello che era un sacchetto di patatine o una buccia di banana diventa spazzatura dopo averli consumati. RT-2 è in grado di comprendere ciò dai suoi dati di addestramento di visione e linguaggio e di svolgere il compito.

Un futuro più luminoso per la robotica

La capacità di RT-2 di trasferire informazioni in azioni mostra la promessa di robot in grado di adattarsi più rapidamente a situazioni e ambienti nuovi. Testando i modelli di RT-2 in oltre 6.000 prove robotiche, il team ha scoperto che RT-2 funzionava altrettanto bene del nostro modello precedente, RT-1, per i compiti nei dati di addestramento, o “compiti visti”. E ha quasi raddoppiato le sue prestazioni su scenari nuovi e inediti, portandole al 62% rispetto al 32% di RT-1.

In altre parole, con RT-2, i robot sono in grado di apprendere in modo simile a noi, trasferendo concetti appresi a nuove situazioni.

RT-2 non solo mostra come i progressi dell’IA si stiano diffondendo rapidamente nella robotica, ma offre enormi promesse per robot più versatili. Mentre c’è ancora molto lavoro da fare per consentire l’utilizzo di robot utili in ambienti centrati sull’uomo, RT-2 ci mostra un futuro entusiasmante per la robotica a portata di mano.

Leggi l’intera storia sul Blog di Google DeepMind.