Cane Robot Fa Moonwalk Stile MJ questa ricerca di intelligenza artificiale propone di utilizzare le ricompense rappresentate in codice come interfaccia flessibile tra LLM e un controllore di movimento basato sull’ottimizzazione.

The proposal suggests using code-represented rewards as a flexible interface between LLM and an optimization-based motion controller.

L’industria dell’Intelligenza Artificiale ha preso il controllo del mondo negli ultimi tempi. Con il rilascio di nuove e uniche ricerche e modelli quasi ogni giorno, l’AI sta evolvendo e migliorando. Che si tratti del dominio della salute, dell’istruzione, del marketing o del dominio commerciale, le pratiche di Intelligenza Artificiale e Machine Learning stanno iniziando a trasformare il modo in cui le industrie operano. L’introduzione dei Large Language Models (LLM), un noto avanzamento nell’AI, sta venendo adottata da quasi tutte le organizzazioni. Famosi LLM come GPT-3.5 e GPT-4 hanno dimostrato una notevole adattabilità a nuovi contesti, consentendo attività come il ragionamento logico e la generazione di codice con un numero minimo di campioni creati a mano.

Gli studiosi hanno anche esaminato l’utilizzo di LLM per migliorare il controllo robotico nel campo della robotica. Poiché le operazioni robotiche a basso livello dipendono dall’hardware e sono frequentemente sottorappresentate nei dati di formazione LLM, l’applicazione di LLM alla robotica è difficile. Approcci precedenti hanno considerato LLM come pianificatori semantici o hanno dipenduto da primitive di controllo create dall’uomo per comunicare con i robot. Per affrontare tutte le sfide, i ricercatori di Google DeepMind hanno introdotto un nuovo paradigma che utilizza l’adattabilità delle funzioni di ricompensa e il potenziale di ottimizzazione per eseguire una varietà di attività robotiche.

Le funzioni di ricompensa fungono da interfacce intermedie definite dagli LLM, che possono essere successivamente ottimizzate per indirizzare le strategie di controllo robotico. Queste funzioni sono adatte alla specificazione da parte di LLM a causa della loro ricchezza semantica poiché possono connettere efficientemente comandi o correzioni di linguaggio di alto livello con comportamenti robotici a basso livello. Il team ha affermato che operare a un livello superiore di astrazione utilizzando le funzioni di ricompensa come interfaccia tra il linguaggio e le azioni robotiche a basso livello è stato ispirato dall’osservazione che le istruzioni del linguaggio umano spesso descrivono risultati comportamentali anziché azioni specifiche a basso livello. Collegando le istruzioni alle ricompense, diventa più facile colmare il divario tra il linguaggio e i comportamenti dei robot, poiché le ricompense catturano la profondità della semantica associata ai risultati desiderati.

L’ottimizzatore in tempo reale MuJoCo MPC (Model Predictive Control) è stato utilizzato in questo paradigma per consentire lo sviluppo del comportamento interattivo. Il processo di raffinamento iterativo è stato migliorato dalla capacità dell’utente di osservare immediatamente i risultati e fornire input al sistema. Per il processo di valutazione, il team di ricercatori ha progettato un insieme di 17 compiti sia per un robot quadrupede simulato che per un robot manipolatore destro. Il metodo è stato in grado di completare il 90% dei compiti progettati con una buona affidabilità delle prestazioni. Al contrario, una strategia di base che utilizza competenze primitive come interfaccia con il codice come politiche ha completato solo il 50% dei compiti. Sono stati effettuati anche esperimenti su un braccio robotico reale al fine di testare l’efficienza della metodologia in cui il sistema interattivo ha mostrato abilità di manipolazione complesse, come la spinta non prensile.

In conclusione, si tratta di un approccio promettente con l’aiuto del quale gli LLM possono essere utilizzati per definire i parametri di ricompensa e ottimizzarli per il controllo robotico. La combinazione di ricompense generate da LLM e tecniche di ottimizzazione in tempo reale mostra un processo di creazione di comportamento interattivo e basato sul feedback, consentendo agli utenti di raggiungere comportamenti robotici complessi in modo più efficiente ed efficace.