Metodi Monte Carlo

Monte Carlo Methods

Guida di un Baby Robot all’Apprendimento per Rinforzo

Un’introduzione all’Apprendimento per Rinforzo: Parte 4

Tutte le immagini dell'autore

Introduzione

Di nuovo siamo in viaggio verso il casinò, e questa volta si trova nella soleggiata Monte Carlo, resa famosa dalla sua apparizione nel film classico Madagascar 3: Ricercati in Europa (anche se c’è una piccola possibilità che fosse già famosa).

Nella nostra ultima visita a un casinò abbiamo esaminato il bandito a braccio multiplo e lo abbiamo usato come modo per visualizzare il problema di come scegliere la migliore azione quando si confrontano molte azioni possibili.

In termini di Apprendimento per Rinforzo, il problema del bandito può essere pensato come la rappresentazione di uno stato singolo e delle azioni disponibili all’interno di quello stato. I metodi di Monte Carlo estendono questa idea per coprire stati multipli e interrelati.

Inoltre, nei problemi precedenti che abbiamo esaminato, ci è sempre stato fornito un modello completo dell’ambiente. Questo modello definisce sia le probabilità di transizione, che descrivono le possibilità di passare da uno stato al successivo, che la ricompensa ricevuta per effettuare questa transizione.

Nel metodo di Monte Carlo non è così. Non viene fornito alcun modello e invece l’agente deve scoprire le proprietà dell’ambiente attraverso l’esplorazione, raccogliendo informazioni mentre si sposta da uno stato all’altro. In altre parole, i metodi di Monte Carlo imparano dall’esperienza.

Gli esempi in questo articolo utilizzano l’ambiente personalizzato Baby Robot Gym Environment e tutto il codice correlato a questo articolo può essere trovato su Github.

Inoltre, una versione interattiva di questo articolo può essere trovata in forma di notebook, dove è possibile eseguire effettivamente tutti gli snippet di codice descritti di seguito.

Tutti gli articoli precedenti di questa serie possono essere trovati qui: Guida di un Baby Robot all’Apprendimento per Rinforzo.

E, per un breve riassunto della teoria e della terminologia utilizzate in questo articolo, date un’occhiata a Valori di Stato e Valutazione di una Politica in 5 minuti.

Previsione di Monte Carlo

Nel problema di previsione vogliamo trovare quanto è buono trovarsi in uno stato particolare dell’ambiente. Questa “bontà” è rappresentata dallo stato…