Ricercatori dell’UC Berkeley presentano Video Prediction Rewards (VIPER) un algoritmo che sfrutta modelli di previsione video preaddestrati come segnali di ricompensa privi di azioni per l’apprendimento per rinforzo.
I ricercatori dell'UC Berkeley presentano VIPER, un algoritmo che utilizza modelli di previsione video preaddestrati come ricompense di apprendimento per rinforzo senza azioni.
La progettazione di una funzione di ricompensa a mano richiede tempo e può comportare conseguenze indesiderate. Questo è un ostacolo importante nello sviluppo di agenti di decisione generici basati sull’apprendimento per rinforzo (RL).
I metodi di apprendimento basati su video precedenti hanno premiato gli agenti le cui osservazioni attuali sono più simili a quelle degli esperti. Non riescono a catturare attività significative nel tempo poiché le ricompense sono condizionate esclusivamente all’osservazione attuale. E la generalizzazione è ostacolata dalle tecniche di addestramento avversario che portano al collasso delle modalità.
Ricercatori dell’U.C. Berkeley hanno sviluppato un nuovo metodo per estrarre incentivi dai modelli di previsione video chiamato Video Prediction Incentives for Reinforcement Learning (VIPER). VIPER può apprendere le funzioni di ricompensa dai filmati grezzi e generalizzare a domini non addestrati.
- DeepMind AI potenzia l’esposizione di YouTube Shorts generando automaticamente descrizioni per milioni di video
- Questa ricerca sull’IA analizza le limitazioni e le capacità dei modelli di linguaggio di grandi dimensioni (LLM) basati su trasformatori, sia empiricamente che teoricamente, su compiti compositivi
- Sfruttare l’apprendimento automatico per lo sviluppo di una strategia di marketing efficace
Prima di tutto, VIPER utilizza filmati generati dagli esperti per addestrare un modello di previsione. Il modello di previsione video viene quindi utilizzato per addestrare un agente nell’apprendimento per rinforzo al fine di ottimizzare la log-verosimiglianza delle traiettorie dell’agente. La distribuzione delle traiettorie dell’agente deve essere ridotta al minimo per corrispondere alla distribuzione del modello video. Utilizzando le verosimiglianze del modello video come segnale di ricompensa direttamente, l’agente può essere addestrato a seguire una distribuzione di traiettorie simile a quella del modello video. A differenza delle ricompense a livello osservazionale, quelle fornite dai modelli video quantificano la coerenza temporale del comportamento. Consente anche tempi di addestramento più rapidi e maggiori interazioni con l’ambiente perché valutare le verosimiglianze è molto più veloce rispetto all’esecuzione dei modelli video.
In 15 compiti DMC, 6 compiti RLBench e 7 compiti Atari, il team ha condotto uno studio approfondito e ha dimostrato che VIPER può raggiungere un controllo di livello esperto senza utilizzare ricompense di compito. Secondo i risultati, gli agenti RL addestrati con VIPER superano l’apprendimento di imitazione avversaria su tutta la linea. Poiché VIPER è integrato nell’ambiente, non importa quale agente RL viene utilizzato. I modelli video sono già generalizzabili a combinazioni braccio/compito non incontrate durante l’addestramento, anche nel regime di piccoli dataset.
I ricercatori ritengono che l’utilizzo di modelli video condizionali pre-addestrati su larga scala renderà possibili funzioni di ricompensa più flessibili. Con l’aiuto dei recenti progressi nella modellazione generativa, ritengono che il loro lavoro fornisca alla comunità una base per la specifica di ricompensa scalabile da filmati non etichettati.