Google AI propone una politica universale (UniPi) che affronta la diversità ambientale e le sfide di specificazione delle ricompense

Google AI propone UniPi, una politica universale per affrontare la diversità ambientale e le sfide delle ricompense specifiche.

Indipendentemente dal settore in cui sono impiegate, le tecnologie di intelligenza artificiale (AI) e di apprendimento automatico (ML) hanno sempre cercato di migliorare la qualità della vita delle persone. Una delle principali applicazioni dell’AI negli ultimi tempi è progettare e creare agenti in grado di svolgere compiti decisionali in diversi ambiti. Ad esempio, modelli di linguaggio come GPT-3 e PaLM e modelli di visione come CLIP e Flamingo si sono dimostrati eccezionalmente bravi nell’apprendimento senza supervisione nei rispettivi settori. Tuttavia, c’è un principale svantaggio associato all’addestramento di tali agenti. Questo perché tali agenti mostrano la proprietà intrinseca della diversità ambientale durante l’addestramento. In termini semplici, l’addestramento per compiti o ambienti diversi richiede l’uso di spazi di stato diversi, che a volte possono ostacolare l’apprendimento, il trasferimento di conoscenza e la capacità di generalizzazione dei modelli tra domini. Inoltre, per i compiti basati sull’apprendimento per rinforzo (RL), diventa difficile creare funzioni di ricompensa per compiti specifici in diversi ambienti.

Lavorando su questa problematica, un team di Google Research ha indagato se tali strumenti possano essere utilizzati per costruire agenti più versatili. Per la loro ricerca, il team si è concentrato specificamente sulla sintesi di immagini guidata dal testo, in cui l’obiettivo desiderato sotto forma di testo viene fornito a un pianificatore, che crea una sequenza di fotogrammi che rappresentano il corso d’azione previsto, dopo di che vengono estratte le azioni di controllo dal video generato. Il team di Google ha quindi proposto una politica universale (UniPi) che affronta le sfide della diversità ambientale e della specifica di ricompensa nel loro recente articolo intitolato “Apprendimento di politiche universali tramite generazione di video guidata dal testo”. La politica UniPi utilizza il testo come interfaccia universale per le descrizioni delle attività e il video come interfaccia universale per comunicare l’azione e il comportamento di osservazione in diverse situazioni. In particolare, il team ha progettato un generatore di video come pianificatore che accetta l’immagine corrente e un prompt di testo che indica l’obiettivo attuale come input per generare una traiettoria sotto forma di sequenza di immagini o video. Il video generato viene quindi alimentato a un modello di dinamica inversa che estrae le azioni sottostanti eseguite. Questo approccio si distingue perché consente di sfruttare la natura universale del linguaggio e del video nella generalizzazione a obiettivi e compiti nuovi in ambienti diversi.

Negli ultimi anni, sono stati compiuti progressi significativi nel campo della sintesi di immagini guidata dal testo, che hanno prodotto modelli con una capacità eccezionale di generare immagini sofisticate. Ciò ha ulteriormente motivato il team a scegliere questo come loro compito decisionale. L’approccio UniPi proposto dai ricercatori di Google è principalmente composto da quattro componenti: coerenza della traiettoria tramite tegole, pianificazione gerarchica, modulazione comportamentale flessibile e adattamento dell’azione specifica del compito, che vengono descritte in dettaglio come segue:

1. Coerenza della traiettoria tramite tegole:

I metodi esistenti di testo-video spesso producono video con un cambiamento sostanziale dello stato dell’ambiente sottostante. Tuttavia, assicurare che l’ambiente sia costante in tutti i timestamp è essenziale per costruire un pianificatore di traiettorie accurato. Pertanto, per garantire la coerenza dell’ambiente nella sintesi condizionale di video, i ricercatori forniscono ulteriormente l’immagine osservata durante la denoising di ogni fotogramma nel video sintetizzato. Al fine di mantenere lo stato dell’ambiente sottostante nel tempo, UniPi concatena direttamente ciascun fotogramma intermedio rumoroso con l’immagine osservata condizionata attraverso i passaggi di campionamento.

2. Pianificazione gerarchica:

È difficile generare tutte le azioni necessarie quando si pianificano in ambienti complessi e sofisticati che richiedono molto tempo e misure. I metodi di pianificazione superano questo problema sfruttando una gerarchia naturale creando piani approssimativi in uno spazio più piccolo e raffinandoli in piani più dettagliati. Allo stesso modo, nel processo di generazione di video, UniPi crea prima video a un livello approssimativo che dimostrano il comportamento desiderato dell’agente, per poi migliorarli rendendoli più realistici riempiendo i fotogrammi mancanti e rendendoli più fluidi. Ciò viene fatto utilizzando una gerarchia di passaggi, con ogni passaggio che migliora la qualità del video fino a raggiungere il livello desiderato di dettaglio.

3. Modulazione comportamentale flessibile:

Nel pianificare una sequenza di azioni per un obiettivo più piccolo, è possibile includere facilmente vincoli esterni per modificare il piano generato. Ciò può essere fatto incorporando una priorità probabilistica che riflette le limitazioni desiderate in base alle proprietà del piano. La priorità può essere descritta utilizzando un classificatore appreso o una distribuzione delta di Dirac su una particolare immagine per guidare il piano verso stati specifici. Questo approccio è anche compatibile con UniPi. I ricercatori hanno utilizzato l’algoritmo di diffusione video per addestrare il modello di generazione di video condizionato al testo. Questo algoritmo è composto da funzionalità di linguaggio preaddestrate codificate dal Text-To-Text Transfer Transformer (T5).

4. Adattamento dell’azione specifica al compito:

Viene addestrato un piccolo modello di dinamica inversa per tradurre i frame video in azioni di controllo a basso livello utilizzando un insieme di video sintetizzati. Questo modello è separato dal pianificatore e può essere addestrato su un dataset più piccolo generato da un simulatore. Il modello di dinamica inversa prende in input i frame e le descrizioni testuali degli obiettivi attuali, sintetizza i frame dell’immagine e genera una sequenza di azioni per prevedere i passi futuri. Un agente esegue quindi queste azioni di controllo a basso livello utilizzando un controllo a ciclo chiuso.

Per riassumere, i ricercatori di Google hanno fornito un contributo impressionante mostrando il valore dell’utilizzo della generazione di video basati su testo per rappresentare politiche in grado di abilitare la generalizzazione combinatoria, l’apprendimento multi-task e il trasferimento nel mondo reale. I ricercatori hanno valutato il loro approccio su diversi compiti basati sul linguaggio, ed è stato concluso che UniPi generalizza bene sia per le combinazioni di prompt linguistiche conosciute che sconosciute, rispetto ad altre basi di confronto come Transformer BC, Trajectory Transformer e Diffuser. Questi risultati incoraggianti evidenziano il potenziale dell’utilizzo di modelli generativi e dei vasti dati disponibili come risorse preziose per creare sistemi decisionali versatili.