Ricercatori della CMU presentano RoboTool un sistema di intelligenza artificiale che accetta istruzioni in linguaggio naturale e produce codice eseguibile per il controllo di robot sia in ambienti simulati che in quelli reali.

I ricercatori della CMU presentano RoboTool un sistema di intelligenza artificiale che trasforma le istruzioni in linguaggio naturale in codice eseguibile per controllare robot sia in ambienti simulati che reali.

Ricercatori della Carnegie Mellon University e Google DeepMind hanno collaborato per sviluppare RoboTool, un sistema che sfrutta Large Language Models (LLM) per dotare i robot della capacità di utilizzare creativamente gli strumenti in attività che implicano vincoli fisici impliciti e pianificazione a lungo termine. Il sistema comprende quattro componenti chiave: 

  1. Analizzatore per interpretare il linguaggio naturale
  2. Pianificatore per generare strategie
  3. Calcolatore per calcolare i parametri
  4. Codificatore per tradurre i piani in codice Python eseguibile.

Utilizzando GPT-4, RoboTool mira a fornire una soluzione più flessibile, efficiente e user-friendly per complesse attività di robotica rispetto ai tradizionali metodi di Task and Motion Planning.

Lo studio affronta la sfida dell’utilizzo creativo degli strumenti nei robot, analogo al modo in cui gli animali mostrano intelligenza nell’utilizzo degli strumenti. Sottolinea l’importanza che i robot non solo utilizzino gli strumenti per il loro scopo previsto, ma li impieghino anche in modi creativi e non convenzionali per fornire soluzioni flessibili. I metodi tradizionali di Task and Motion Planning (TAMP) devono essere rivisti per gestire attività con vincoli impliciti e spesso sono computazionalmente dispendiosi. I Large Language Models (LLM) hanno dimostrato di essere promettenti nell’incorporare conoscenze utili per le attività robotiche.

La ricerca introduce una misura di valutazione delle capacità creative nell’utilizzo degli strumenti, inclusa la selezione degli strumenti, l’utilizzo sequenziale degli strumenti e la produzione. Il proposto RoboTool è valutato sia in ambienti simulati che in ambienti reali, dimostrando competenza nell’affrontare attività che sarebbero impegnative senza l’utilizzo creativo degli strumenti. I tassi di successo del sistema superano quelli dei metodi di riferimento, dimostrando la sua efficacia nella risoluzione di complesse attività di pianificazione a lungo termine con vincoli impliciti.

L’evaluazione è stata effettuata calcolando 3 tipi di errori: 

  1. Errore nell’utilizzo degli strumenti, indicando se viene utilizzato lo strumento corretto,
  2. Errore logico, focalizzato sugli errori di pianificazione come l’utilizzo degli strumenti nell’ordine sbagliato o l’ignoranza dei vincoli forniti,
  3. Errore numerico, che include il calcolo delle posizioni target errate o l’aggiunta di compensazioni errate.

Il RoboTool senza l’analizzatore mostra una grande percentuale di errore nell’utilizzo degli strumenti e il RoboTool senza il calcolatore presenta un grande errore numerico rispetto al RoboTool, dimostrando il loro ruolo nel modello.

Lo studio presenta i successi di RoboTool in vari compiti, come attraversare spazi tra divani, raggiungere oggetti posizionati al di fuori dello spazio di lavoro del robot e utilizzare in modo creativo gli strumenti al di là delle loro funzioni convenzionali. Il sistema sfrutta la conoscenza dei LLM sulle proprietà degli oggetti e il buon senso umano per identificare concetti chiave e ragionare sulla realtà fisica tridimensionale. Negli esperimenti con un braccio robotico e un robot quadrupede, RoboTool dimostra comportamenti di utilizzo creativo degli strumenti, tra cui improvvisazione, utilizzo sequenziale degli strumenti e produzione di strumenti. Pur raggiungendo tassi di successo comparabili o superiori ai metodi di riferimento nella simulazione, le sue prestazioni nel mondo reale sono leggermente influenzate da errori di percezione ed errori di esecuzione.

In conclusione, RoboTool, alimentato da LLM, è un utente creativo di strumenti robotici in grado di risolvere problemi di pianificazione a lungo termine con vincoli fisici impliciti. La capacità del sistema di identificare concetti chiave, generare piani creativi, calcolare parametri e produrre codice eseguibile contribuisce al suo successo nell’affrontare complessi compiti di robotica che richiedono l’utilizzo creativo degli strumenti.