È la Curiosità tutto ciò di cui hai bisogno? Sull’utilità dei comportamenti emergenti derivanti dall’esplorazione curiosa

'La curiosità tutto ciò di cui hai bisogno? Sull'utilità dei comportamenti emergenti dalla curiosità'

Durante l’esplorazione puramente curiosa, il braccio JACO scopre come prendere i cubi, spostarli nello spazio di lavoro e persino esplorare se possono essere bilanciati sui loro spigoli.

L’esplorazione curiosa consente all’OP3 di camminare eretto, mantenere l’equilibrio su un piede, sedersi e persino proteggersi quando salta all’indietro, tutto senza un obiettivo specifico da ottimizzare.

La motivazione intrinseca [1, 2] può essere un concetto potente per dotare un agente di un meccanismo per esplorare continuamente il suo ambiente in assenza di informazioni sul compito. Un modo comune per implementare la motivazione intrinseca è tramite l’apprendimento della curiosità [3, 4]. Con questo metodo, viene addestrato un modello predittivo sulla risposta dell’ambiente alle azioni di un agente insieme alla sua politica. Questo modello può essere chiamato anche modello del mondo. Quando viene eseguita un’azione, il modello del mondo fa una previsione sull’osservazione successiva dell’agente. Questa previsione viene quindi confrontata con l’osservazione effettuata dall’agente. In modo cruciale, la ricompensa data all’agente per aver eseguito questa azione è scalata dall’errore commesso nel previsione dell’osservazione successiva. In questo modo, l’agente viene premiato per l’esecuzione di azioni il cui esito non è ancora ben prevedibile. Allo stesso tempo, il modello del mondo viene aggiornato per migliorare la previsione dell’esito di tale azione.

Questo meccanismo è stato applicato con successo in contesti on-policy, ad esempio per superare giochi informatici 2D in modo non supervisionato [4] o per addestrare una politica generale facilmente adattabile a compiti specifici successivi [5]. Tuttavia, riteniamo che la vera forza dell’apprendimento della curiosità risieda nel comportamento diverso che emerge durante il processo di esplorazione curiosa: man mano che l’obiettivo della curiosità cambia, cambia anche il comportamento risultante dell’agente, scoprendo così molte politiche complesse che potrebbero essere utilizzate in seguito, se fossero conservate e non sovrascritte.

In questo articolo, apportiamo due contributi per studiare l’apprendimento della curiosità e sfruttare il suo comportamento emergente: in primo luogo, presentiamo SelMo, una realizzazione off-policy di un metodo basato sulla curiosità e motivato da sé per l’esplorazione. Mostreremo che utilizzando SelMo, emergono comportamenti significativi e diversi basati unicamente sull’ottimizzazione dell’obiettivo della curiosità in domini simulati di manipolazione e locomozione. In secondo luogo, proponiamo di estendere il focus nell’applicazione dell’apprendimento della curiosità verso l’identificazione e il mantenimento dei comportamenti intermedi emergenti. Supportiamo questa congettura con un esperimento che riutilizza i comportamenti auto-scoperti come abilità ausiliarie preaddestrate in un ambiente di apprendimento gerarchico basato sul rinforzo.

Il flusso di controllo del metodo SelMo: l'agente (attore) raccoglie traiettorie nell'ambiente utilizzando la sua politica corrente e le memorizza nel buffer del modello di riproduzione a sinistra. Il modello del mondo connesso campiona uniformemente tale buffer e aggiorna i suoi parametri per la previsione in avanti utilizzando la discesa del gradiente stocastico (SGD). Le traiettorie campionate sono assegnate ricompense di curiosità scalate dall'errore di previsione rispettivo nel modello del mondo corrente. Le traiettorie etichettate vengono quindi passate al buffer di riproduzione delle politiche a destra. L'ottimizzazione della politica a massima a posteriori (MPO) [6] viene utilizzata per adattare la funzione Q e la politica in base a campioni dal replay delle politiche. La politica risultante aggiornata viene quindi sincronizzata nuovamente con l'attore.

Eseguiamo SelMo in due domini robotici di controllo continuo simulato: su un braccio JACO a 6 gradi di libertà con una pinza a tre dita e su un robot umanoide OP3 a 20 gradi di libertà. Le rispettive piattaforme presentano sfide nell’apprendimento per la manipolazione degli oggetti e la locomozione, rispettivamente. Mentre ottimizziamo solo per la curiosità, osserviamo che nel corso dei cicli di addestramento emerge un comportamento complesso interpretabile dall’uomo. Ad esempio, JACO impara a prendere e spostare cubi senza alcuna supervisione o l’OP3 impara a mantenere l’equilibrio su un solo piede o a sedersi in sicurezza senza cadere.

Esempi di linee temporali di addestramento per JACO e OP3. Ottimizzando l'obiettivo di curiosità, emergono comportamenti complessi e significativi sia nei contesti di manipolazione che di locomozione. I video completi possono essere trovati in cima a questa pagina.

Tuttavia, i comportamenti impressionanti osservati durante l’esplorazione curiosa hanno un inconveniente cruciale: non sono persistenti poiché cambiano con la funzione di ricompensa della curiosità. Man mano che l’agente ripete un certo comportamento, ad esempio JACO sollevando il cubo rosso, le ricompense di curiosità accumulate da questa politica diminuiscono. Di conseguenza, ciò porta all’apprendimento di una politica modificata che acquisisce di nuovo ricompense di curiosità più elevate, ad esempio spostando il cubo fuori dallo spazio di lavoro o addirittura occupandosi dell’altro cubo. Ma questo nuovo comportamento sovrascrive quello vecchio. Tuttavia, riteniamo che mantenere i comportamenti emergenti dall’esplorazione curiosa doti l’agente di un insieme di abilità preziose per imparare nuove attività più rapidamente. Al fine di indagare questa congettura, abbiamo allestito un esperimento per sondare l’utilità delle abilità autoscoperte.

Trattiamo campioni casuali da diverse fasi dell’esplorazione curiosa come abilità ausiliarie in un framework di apprendimento modulare [7] e misuriamo quanto velocemente una nuova abilità target può essere appresa utilizzando queste abilità ausiliarie. Nel caso del braccio JACO, impostiamo il compito target come “sollevare il cubo rosso” e utilizziamo cinque comportamenti autoscoperti campionati casualmente come abilità ausiliarie. Confrontiamo l’apprendimento di questo compito secondario con una linea di base SAC-X [8] che utilizza un curriculum di funzioni di ricompensa per premiare il raggiungimento e lo spostamento del cubo rosso, il che facilita infine anche l’apprendimento del sollevamento. Troviamo che anche questa semplice configurazione per il riuso delle abilità accelera già il progresso dell’apprendimento del compito secondario in modo commisurabile a un curriculum di ricompense progettato manualmente. I risultati suggeriscono che l’identificazione automatica e la conservazione del comportamento emergente utile dall’esplorazione curiosa sono una strada promettente per future indagini nell’apprendimento di rinforzo non supervisionato.