I ricercatori dell’UC Berkeley e di Deepmind propongono SuccessVQA una riformulazione della rilevazione del successo che è adatta ai VLM pre-addestrati come Flamingo.

I ricercatori dell'UC Berkeley e di Deepmind propongono SuccessVQA, una riformulazione adatta ai VLM pre-addestrati come Flamingo.

Per ottenere la migliore precisione prestazionale possibile, è fondamentale capire se un agente si trova sulla giusta o preferita traiettoria durante l’addestramento. Questo può avvenire sotto forma di ricompensa per un agente nell’apprendimento per rinforzo o utilizzando una metrica di valutazione per identificare le politiche migliori possibili. Di conseguenza, essere in grado di rilevare tali comportamenti di successo diventa un prerequisito fondamentale durante l’addestramento di agenti intelligenti avanzati. Ecco dove entrano in gioco i detector di successo, in quanto possono essere utilizzati per classificare se il comportamento di un agente è di successo o meno. La ricerca precedente ha dimostrato che lo sviluppo di detector di successo specifici del dominio è relativamente più facile rispetto a quelli più generalizzati. Ciò perché definire ciò che viene considerato successo per la maggior parte delle attività del mondo reale è molto difficile in quanto spesso soggettivo. Ad esempio, un’opera d’arte generata dall’IA potrebbe affascinare alcuni, ma lo stesso non può essere detto per tutto il pubblico.

Negli ultimi anni, i ricercatori hanno sviluppato diverse approcci per lo sviluppo di detector di successo, uno dei quali è la modellazione delle ricompense con dati di preferenza. Tuttavia, questi modelli presentano alcuni svantaggi poiché offrono prestazioni apprezzabili solo per un insieme fisso di compiti e condizioni ambientali osservate nei dati di addestramento annotati con preferenze. Pertanto, per garantire la generalizzazione, sono necessarie ulteriori annotazioni per coprire una vasta gamma di domini, il che è un compito molto laborioso. D’altra parte, quando si tratta di addestrare modelli che utilizzano sia la visione che il linguaggio come input, una rilevazione di successo generalizzabile dovrebbe garantire che fornisca misurazioni accurate in entrambi i casi: variazioni linguistiche e visive nel compito specificato. I modelli esistenti sono stati tipicamente addestrati per condizioni e compiti fissi e quindi non sono in grado di generalizzare a tali variazioni. Inoltre, adattarsi a nuove condizioni richiede tipicamente la raccolta di un nuovo set di dati annotati e il riaddestramento del modello, il che non è sempre fattibile.

Lavorando su questo problema, un team di ricercatori presso la sussidiaria di Alphabet, DeepMind, ha sviluppato un approccio per addestrare detector di successo robusti che possono resistere a variazioni sia nelle specifiche linguistiche che nelle condizioni percettive. Hanno raggiunto questo obiettivo sfruttando ampi modelli di visione e linguaggio preaddestrati come Flamingo e annotazioni di ricompensa umana. Lo studio si basa sull’osservazione dei ricercatori che il preaddestramento di Flamingo su grandi quantità di dati linguistici e visivi diversificati porterà ad addestrare detector di successo più robusti. I ricercatori affermano che il loro contributo più significativo è la riformulazione del compito di rilevazione di successo generalizzabile come un problema di risposta a domande visive (VQA), indicato come SuccessVQA. Questo approccio specifica il compito come una semplice domanda a cui si può rispondere con sì o no e utilizza un’architettura unificata composta solo da un breve clip che definisce l’ambiente dello stato e un po’ di testo che descrive il comportamento desiderato.

Il team di DeepMind ha anche dimostrato che il raffinamento di Flamingo con annotazioni umane porta a una rilevazione di successo generalizzabile in tre importanti domini. Questi includono agenti interattivi basati sul linguaggio naturale in una simulazione domestica, manipolazione robotica nel mondo reale e video umani egocentrici nella natura. La natura universale della formulazione del compito SuccessVQA consente ai ricercatori di utilizzare la stessa architettura e meccanismo di addestramento per una vasta gamma di compiti provenienti da domini diversi. Inoltre, l’utilizzo di un modello di visione e linguaggio preaddestrato come Flamingo ha reso considerevolmente più facile godere appieno dei vantaggi del preaddestramento su un ampio set di dati multimodali. Il team ritiene che ciò abbia reso possibile la generalizzazione sia per le variazioni linguistiche che visive.

Per valutare la loro riformulazione della rilevazione di successo, i ricercatori hanno condotto diversi esperimenti su variazioni linguistiche e visive non viste in precedenza. Questi esperimenti hanno rivelato che i modelli di visione e linguaggio preaddestrati hanno prestazioni comparabili nella maggior parte dei compiti in distribuzione e superano significativamente i modelli di ricompensa specifici del compito in scenari fuori distribuzione. Le indagini hanno anche rivelato che questi detector di successo sono in grado di generalizzare senza bisogno di adattamento a variazioni non viste nel linguaggio e nella visione, dove i modelli di ricompensa esistenti hanno fallito. Sebbene il nuovo approccio, proposto dai ricercatori di DeepMind, abbia prestazioni notevoli, presenta comunque alcuni svantaggi, specialmente nei compiti legati all’ambiente robotico. I ricercatori hanno dichiarato che il loro lavoro futuro prevederà ulteriori miglioramenti in questo ambito. DeepMind spera che la comunità scientifica consideri il loro lavoro iniziale come una pietra miliare verso il raggiungimento di maggiori risultati nella rilevazione di successo e nella modellazione delle ricompense.