Selezione attiva della politica offline

'Offline policy selection'

L’apprendimento per rinforzo (RL) ha fatto enormi progressi negli ultimi anni nel risolvere problemi reali, e l’RL offline lo ha reso ancora più pratico. Invece di interagire direttamente con l’ambiente, ora possiamo addestrare molti algoritmi da un singolo dataset pre-registrato. Tuttavia, perdiamo i vantaggi pratici in termini di efficienza dei dati dell’RL offline quando valutiamo le politiche a nostra disposizione.

Ad esempio, durante l’addestramento di manipolatori robotici le risorse del robot sono solitamente limitate, e addestrare molte politiche tramite RL offline su un singolo dataset ci dà un grande vantaggio in termini di efficienza dei dati rispetto all’RL online. Valutare ogni politica è un processo costoso, che richiede migliaia di interazioni con il robot. Quando scegliamo il miglior algoritmo, gli iperparametri e il numero di passaggi di addestramento, il problema diventa rapidamente inestricabile.

Per rendere l’RL più applicabile a situazioni reali come la robotica, proponiamo di utilizzare una procedura di valutazione intelligente per selezionare la politica da implementare, chiamata selezione attiva della politica offline (A-OPS). In A-OPS, facciamo uso del dataset preregistrato e consentiamo interazioni limitate con l’ambiente reale per migliorare la qualità della selezione.

La selezione attiva della politica offline (A-OPS) seleziona la migliore politica da un insieme di politiche dati un dataset preregistrato e interazioni limitate con l'ambiente.

Per ridurre al minimo le interazioni con l’ambiente reale, implementiamo tre caratteristiche chiave:

  1. La valutazione della politica fuori-politica, come la valutazione Q regolata (FQE), ci consente di fare un’ipotesi iniziale sulle prestazioni di ciascuna politica basata su un dataset offline. Correla bene con le prestazioni reali in molti ambienti, inclusi quelli della robotica del mondo reale, dove viene applicata per la prima volta.
I punteggi FQE sono ben allineati alle prestazioni reali delle politiche addestrate sia in simulazione che in RL offline.

I rendimenti delle politiche sono modellati congiuntamente utilizzando un processo gaussiano, in cui le osservazioni includono i punteggi FQE e un piccolo numero di rendimenti episodici appena raccolti dal robot. Dopo aver valutato una politica, acquisiamo conoscenze su tutte le politiche perché le loro distribuzioni sono correlate attraverso il kernel tra coppie di politiche. Il kernel assume che se le politiche adottano azioni simili, come ad esempio spostare la pinza robotica in una direzione simile, tendono ad avere rendimenti simili.

Utilizziamo i punteggi OPE e i rendimenti episodici per modellare le prestazioni latenti delle politiche come un processo gaussiano.
La similarità tra le politiche è modellata attraverso la distanza tra le azioni prodotte da queste politiche.
  1. Per essere più efficienti in termini di dati, applichiamo l’ottimizzazione bayesiana e diamo priorità alle politiche più promettenti da valutare successivamente, ovvero quelle con alte prestazioni previste e grande varianza.

Abbiamo dimostrato questa procedura in diversi ambienti in diversi settori: dm-control, Atari, simulati e robotica reale. Utilizzando A-OPS riduciamo rapidamente il rimpianto e, con un numero moderato di valutazioni delle politiche, identifichiamo la migliore politica.

In un esperimento di robotica del mondo reale, A-OPS aiuta a identificare una politica molto buona più velocemente rispetto ad altre basi. Trovare una politica con un rimpianto vicino a zero su 20 politiche richiede lo stesso tempo necessario per valutare due politiche con le procedure attuali.

I nostri risultati suggeriscono che è possibile effettuare una selezione efficace della politica offline con solo un piccolo numero di interazioni con l’ambiente utilizzando i dati offline, un kernel speciale e l’ottimizzazione bayesiana. Il codice per A-OPS è open source e disponibile su GitHub con un dataset di esempio da provare.