Questo articolo AI presenta Video Language Planning (VLP) un nuovo approccio di intelligenza artificiale che consiste in una procedura di ricerca ad albero con modelli di visione-linguaggio e dinamiche di testo-video

Introduzione al Video Language Planning un nuovo approccio di intelligenza artificiale per la ricerca testo-video

Con l’avanzare costante delle applicazioni dell’Intelligenza Artificiale, i modelli generativi stanno crescendo rapidamente. L’idea di interagire in modo intelligente con l’ambiente fisico è stata oggetto di discussione in quanto evidenzia l’importanza della pianificazione a due diversi livelli: dinamiche di base a basso livello e astrazioni semantiche ad alto livello. Questi due strati sono essenziali affinché i sistemi robotici siano adeguatamente controllati per svolgere attività nel mondo reale.

La nozione di dividere il problema della pianificazione in questi due livelli è stata a lungo riconosciuta nella robotica. Di conseguenza, sono state sviluppate molte strategie, tra cui la combinazione di movimento con la pianificazione delle attività e la determinazione delle regole di controllo per compiti di manipolazione complessi. Questi metodi cercano di produrre piani che tengano conto degli obiettivi del lavoro e delle dinamiche dell’ambiente reale. Parlando di LLM, questi modelli possono creare piani ad alto livello utilizzando descrizioni di attività simboliche, ma hanno difficoltà nell’implementare tali piani. Quando si tratta delle parti più tangibili dei compiti, come forme, fisica e limitazioni, non sono in grado di ragionare.

In una recente ricerca, un team di ricercatori di Google Deepmind, MIT e UC Berkeley ha proposto di unire i modelli di testo-video e di visione-linguaggio (VLM) per superare i drawback. Combinando i vantaggi di entrambi i modelli, questa integrazione, nota come Video Language Planning (VLP), è stata introdotta. VLP è stato introdotto con l’obiettivo di agevolare la pianificazione visiva per attività complesse a lungo termine. Questo metodo fa uso di sviluppi recenti in enormi modelli generativi che hanno subito un’ampia preformazione su dati Internet. L’obiettivo principale di VLP è rendere più facile pianificare lavori che richiedono sequenze d’azione lunghe e comprensione sia nel dominio del linguaggio che nel dominio visivo. Questi lavori potrebbero includere qualsiasi cosa, dal semplice riarrangiamento degli oggetti all’operatività complessa dei sistemi robotici.

La base di VLP è un processo di ricerca ad albero che ha due parti principali, che sono le seguenti.

  1. Modelli di visione-linguaggio: questi modelli svolgono i ruoli di funzioni di valore e di politiche e supportano la creazione e la valutazione dei piani. Sono in grado di suggerire il percorso successivo per completare il lavoro dopo aver compreso la descrizione del compito e le informazioni visive disponibili.
  1. Modelli di testo-video: questi modelli fungono da modelli di dinamica in quanto sono in grado di prevedere come determinate decisioni avranno un impatto. Prevedono i risultati potenziali derivati ​​dai comportamenti suggeriti dai modelli di visione-linguaggio.

Un’istruzione di compito a lungo termine e le osservazioni visive attuali sono i due input principali utilizzati da VLP. VLP genera un piano video completo e dettagliato, che fornisce istruzioni passo-passo su come raggiungere l’obiettivo finale combinando caratteristiche linguistiche e visive. Riesce a colmare il divario tra le descrizioni scritte del lavoro e la comprensione visiva.

VLP può svolgere una serie di attività, tra cui la manipolazione bi-braccio e il riarrangiamento di oggetti multipli. Questa flessibilità dimostra la vasta gamma di possibili applicazioni di questo approccio. I sistemi robotici reali possono implementare realisticamente i video blueprint generati. Le regole condizionate dagli obiettivi facilitano questa conversione del piano virtuale in comportamenti robotici effettivi. Queste regole consentono al robot di eseguire il compito passo dopo passo utilizzando ogni frame intermedio del piano video come guida per le sue azioni. 

Confrontando gli esperimenti utilizzando VLP con le tecniche precedenti, si sono osservati significativi miglioramenti nei tassi di successo del compito a lungo termine. Queste indagini sono state condotte su robot reali che utilizzano tre diverse piattaforme hardware e in situazioni simulate.