BYOL-Explore Esplorazione con Predizione Bootstrap

BYOL-Explore

Viste in seconda persona e dall'alto di un agente BYOL-Explore che risolve il livello Thow-Across di DM-HARD-8, mentre l'apprendimento automatico puro e altri metodi di esplorazione di base non riescono a fare alcun progresso su Thow-Across.

L’esplorazione guidata dalla curiosità è il processo attivo di cercare nuove informazioni per migliorare la comprensione dell’agente del suo ambiente. Supponiamo che l’agente abbia imparato un modello del mondo che può prevedere eventi futuri dati la storia degli eventi passati. L’agente guidato dalla curiosità può quindi utilizzare la discrepanza tra la previsione del modello del mondo come ricompensa intrinseca per indirizzare la sua politica di esplorazione verso la ricerca di nuove informazioni. Di conseguenza, l’agente può utilizzare queste nuove informazioni per migliorare il modello del mondo stesso in modo da poter fare previsioni migliori. Questo processo iterativo consente all’agente di esplorare eventualmente ogni novità nel mondo e utilizzare queste informazioni per costruire un modello accurato del mondo.

Ispirato dai successi di bootstrap your own latent (BYOL) – che è stato applicato nella visione artificiale, nell’apprendimento delle rappresentazioni dei grafi e nell’apprendimento delle rappresentazioni in RL – proponiamo BYOL-Explore: un agente di intelligenza artificiale guidato dalla curiosità concettualmente semplice ma generale per risolvere compiti di esplorazione difficili. BYOL-Explore apprende una rappresentazione del mondo prevedendo la propria rappresentazione futura. Quindi, utilizza l’errore di previsione a livello di rappresentazione come ricompensa intrinseca per addestrare una politica guidata dalla curiosità. Pertanto, BYOL-Explore apprende una rappresentazione del mondo, la dinamica del mondo e una politica di esplorazione guidata dalla curiosità, semplicemente ottimizzando l’errore di previsione a livello di rappresentazione.

Confronto tra BYOL-Explore, Random Network Distillation (RND), Intrinsic Curiosity Module (ICM) e apprendimento automatico puro (senza ricompensa intrinseca), in termini di punteggio normalizzato medio umano (CHNS).

Nonostante la semplicità del suo design, quando applicato alla suite di compiti di esplorazione difficili DM-HARD-8, BYOL-Explore supera i metodi di esplorazione guidati dalla curiosità standard come Random Network Distillation (RND) e Intrinsic Curiosity Module (ICM), in termini di punteggio normalizzato medio umano (CHNS), misurato su tutti i compiti. In modo sorprendente, BYOL-Explore ha raggiunto questa performance utilizzando solo una singola rete addestrata contemporaneamente su tutti i compiti, mentre il lavoro precedente era limitato all’impostazione del singolo compito e poteva fare progressi significativi su questi compiti solo quando venivano fornite dimostrazioni di esperti umani.

Come ulteriore prova della sua generalità, BYOL-Explore raggiunge una performance super umana nei dieci giochi di esplorazione più difficili di Atari, pur avendo un design più semplice rispetto ad altri agenti competitivi come Agent57 e Go-Explore.

Confronto tra BYOL-Explore, Random Network Distillation (RND), Intrinsic Curiosity Module (ICM) e apprendimento automatico puro (senza ricompensa intrinseca), in termini di punteggio normalizzato medio umano (CHNS).

Andando avanti, possiamo generalizzare BYOL-Explore a ambienti altamente stocastici apprendendo un modello di mondo probabilistico che potrebbe essere utilizzato per generare traiettorie degli eventi futuri. Ciò potrebbe consentire all’agente di modellare la possibile stocasticità dell’ambiente, evitare trappole stocastiche e pianificare l’esplorazione.