Ricercatori di Stanford, NVIDIA e UT Austin propongono il Curriculo Cross-Episodico (CEC) un nuovo algoritmo di intelligenza artificiale per aumentare l’efficienza di apprendimento e la generalizzazione degli agenti trasformatori

Ricercatori di Stanford, NVIDIA e UT Austin presentano il Curriculo Cross-Episodico (CEC) un nuovo algoritmo di intelligenza artificiale per migliorare l'apprendimento e la capacità di adattamento degli agenti trasformatori

I problemi decisionali sequenziali stanno subendo una transizione importante a causa del cambiamento di paradigma introdotto dall’introduzione dei modelli fondamentali. Questi modelli, come i modelli di trasformazione, hanno completamente cambiato diversi settori, tra cui pianificazione, controllo e rappresentazione visiva pre-addestrata. Nonostante questi sviluppi impressionanti, l’applicazione di questi algoritmi che richiedono molti dati a settori come la robotica con meno dati rappresenta un’enorme difficoltà. Ci si chiede se sia possibile massimizzare la quantità limitata di dati accessibili, indipendentemente dalla loro fonte o qualità, per supportare un apprendimento più efficace.

Per affrontare queste sfide, un gruppo di ricercatori ha recentemente presentato un algoritmo unico chiamato Cross-Episodic Curriculum (CEC). La tecnica CEC sfrutta il modo in cui diverse esperienze sono distribuite in modo diverso quando vengono organizzate in un curriculum. L’obiettivo di CEC è migliorare l’apprendimento e l’efficienza di generalizzazione degli agenti di trasformazione. Il concetto fondamentale di CEC è l’incorporazione di esperienze cross-episodiche in un modello di trasformazione per creare un curriculum. I tentativi di apprendimento online e le dimostrazioni di qualità mista vengono organizzati in modo progressivo in questo curriculum, che cattura la curva di apprendimento e il miglioramento delle abilità in più episodi. CEC crea un meccanismo di attenzione cross-episodico forte utilizzando le capacità di riconoscimento dei modelli potenti dei modelli di trasformazione.

Il team ha fornito due scenari di esempio per illustrare l’efficacia di CEC, che sono i seguenti.

  1. Apprendimento multi-task di controllo discreto in DeepMind Lab: questo scenario utilizza CEC per risolvere una sfida di apprendimento multi-task di controllo discreto. Il curriculum sviluppato da CEC cattura il percorso di apprendimento sia in contesti individualizzati che progressivamente complicati. Ciò consente agli agenti di padroneggiare gradualmente compiti sempre più difficili imparando e adattandosi a piccoli passi.
  1. RoboMimic, apprendimento tramite imitazione con dati di qualità mista per il controllo continuo: il secondo scenario, pertinente a RoboMimic, utilizza il controllo continuo e l’apprendimento tramite imitazione con dati di qualità mista. L’obiettivo del curriculum creato da CEC è registrare l’aumento del livello di competenza dei dimostratori.

Le politiche prodotte da CEC si comportano eccezionalmente bene e hanno forti generalizzazioni in entrambi gli scenari, il che suggerisce che CEC è una strategia valida per migliorare l’adattabilità e l’efficienza di apprendimento degli agenti di trasformazione in una varietà di contesti. Il metodo Cross-Episodic Curriculum comprende due passaggi essenziali, che sono i seguenti.

  1. Preparazione dei dati curricolari: la preparazione dei dati curricolari è il primo passaggio nel processo CEC. Questo implica mettere gli eventi in un ordine e una struttura particolari. Per illustrare chiaramente i modelli del curriculum, questi eventi vengono organizzati in un ordine specifico. Questi modelli possono assumere forme diverse, come il miglioramento delle politiche in ambienti singoli, il progresso nell’apprendimento in ambienti progressivamente più difficili e l’aumento della competenza del dimostratore.
  1. Addestramento del modello di attenzione cross-episodico: questa è la seconda fase significativa nell’addestramento del modello. Durante questa fase di addestramento, il modello viene addestrato a prevedere le azioni. L’aspetto unico di questo metodo è che il modello può guardare indietro agli episodi precedenti oltre a quello attuale. È in grado di interiorizzare i miglioramenti e gli aggiustamenti delle politiche osservati nei dati curricolari. Grazie all’utilizzo dell’esperienza precedente da parte del modello, l’apprendimento può avvenire in modo più efficiente.

Di solito, triangoli colorati, che rappresentano modelli di trasformazione causali, vengono utilizzati per mostrare visivamente queste fasi. Questi modelli sono essenziali per il metodo CEC perché semplificano l’inclusione di eventi cross-episodici nel processo di apprendimento. Le azioni consigliate dal modello, indicate da “a^”, sono essenziali per prendere decisioni.