Incontra il modello RT-2 di intelligenza artificiale di Google – Un robot che impara come un essere umano

Incontra il modello RT-2 di intelligenza artificiale di Google - Un robot che impara come un essere umano' English translation 'Meet Google's AI model RT-2 - A robot that learns like a human

Anche se le reti neurali sono ispirate dal modo in cui il cervello umano funziona, non sono esattamente la stessa cosa. Tuttavia, se il nuovo modello RT-2 di Google funziona come promesso, potrebbe essere un grande passo verso un’intelligenza artificiale simile all’umano. Presentato da DeepMind di Google, il modello promette di imparare sia dai dati web che dai dati di robotica, che a loro volta traducono questa conoscenza acquisita in istruzioni generalizzate per il controllo robotico.

In breve, l’obiettivo sarebbe una comunicazione più stretta tra esseri umani e robot, ma non è tutto. Insegnerà mettendo le parole in azione. Allora, cos’è esattamente RT-2? Beh, secondo il team, è un modello visione-linguaggio-azione, o VLA. È stato sviluppato utilizzando tecniche basate su trasformatori ed è stato addestrato sia su dati testuali che su immagini prese dal web.

Nel loro post, hanno detto dell’addestramento: “RT-2 si basa su VLM che prendono una o più immagini in input e producono una sequenza di token che, convenzionalmente, rappresentano il testo del linguaggio naturale…. abbiamo adattato il modello linguaggio e immagine di Pathways (PaLI-X) e il modello linguaggio incorporato di Pathways (PaLM-E) per agire come basi di RT-2”.

Fino ad ora, nulla di così interessante. Ma dove risiede l’innovazione di RT-2 è nella sua capacità di addestrare robot. Il modello prende dati web, concetti e idee generali e applica quella conoscenza per aiutare a informare il comportamento robotico. Ma come è stato addestrato RT-2 nei suoi compiti?

Bene, secondo il post di Google, “Ogni compito richiedeva la comprensione di concetti visivo-semantici e la capacità di eseguire il controllo robotico per operare su questi concetti. Comandi come “prendi la borsa che sta per cadere dal tavolo” o “sposta la banana alla somma di due più uno” – dove al robot viene chiesto di eseguire un compito di manipolazione su oggetti o scenari mai visti nei dati robotici – richiedevano conoscenze tradotte da dati basati sul web per funzionare”.

Bene, in sostanza insegna ai robot a capire e parlare il linguaggio delle loro operazioni umane. Ed è stato un compito difficile, in quanto compiti complessi e robot hanno avuto una brutta relazione per un po’ di tempo. Molto di ciò è dovuto alle variabili fisiche che i robot devono affrontare, che non si vedono con i loro omologhi chatbot.

Ciò richiede loro di ottenere una base su concetti astratti e idee. Qualcosa di cui molti programmi AI popolari non hanno bisogno di preoccuparsi. Come accennato in precedenza, grazie ai modelli che forniscono una migliore comprensione del loro ambiente, stiamo assistendo a un beneficio della robotica grazie agli sviluppi nell’IA.

Tutto questo potrebbe potenzialmente sostituire i metodi tradizionali di addestramento dei robot che richiedevano miliardi di punti dati relativi all’ambiente circostante. Questo era un impegno che richiedeva tempo e risorse. Quindi, con la capacità di RT-2 di trasferire conoscenze e concetti ai dispositivi robotici, probabilmente assisteremo a una maggiore spinta verso una tecnologia robotica adattabile.

E con gli avanzamenti nella modellazione visiva, ci si potrebbe aspettare che la tecnologia robotica continui a fare rapidi progressi grazie all’IA.