Apprendimento per rinforzo SARSA e Q-Learning – Parte 3

Apprendimento SARSA e Q-Learning - Parte 3

Presentazione della famiglia di tecniche iterative Temporal Difference per risolvere il Processo Decisionale Markoviano

Immagine di Alexey Savchenko su Unsplash

Nell’articolo precedente – Parte 2 – abbiamo scoperto alcuni algoritmi di soluzione per risolvere il Processo Decisionale Markoviano (MDP), nello specifico il metodo della Programmazione Dinamica e il metodo Monte Carlo. L’approccio della Programmazione Dinamica può essere facilmente applicato quando conosciamo l’intera dinamica ambientale del MDP, come le Probabilità di Transizione tra tutti gli stati (condizionate dalle azioni). Tuttavia, tali assunzioni potrebbero non essere pratiche, specialmente quando consideriamo applicazioni reali, dove le relazioni stocastiche tra stati e azioni spesso sono vaghe.

Senza conoscenza delle Probabilità di Transizione, abbiamo introdotto l’idea dell’apprendimento esperienziale chiamata apprendimento Monte Carlo. In questo paradigma, c’è un agente di apprendimento che naviga nel proprio ambiente con azioni prese da una particolare politica “miglior supposizione”. Con il metodo del tentativi ed errori in questo paradigma, la politica viene aggiornata solo dopo ogni episodio.

Per rinfrescare o riprendere queste idee, controlla la Parte 2 qui sotto:

Reinforcement Learning: Programmazione Dinamica e Monte Carlo – Parte 2

Presentazione di due semplici tecniche iterative per risolvere il Processo Decisionale Markoviano

pub.towardsai.net

Tuttavia, come menzionato nell’articolo precedente, le soluzioni sopra descritte sono limitate nelle applicazioni – specialmente in scenari senza modello in cui è necessario aggiornare la propria politica continuamente prima che l’episodio si concluda. Oppure l’episodio è infinito – immagina la vita come un MDP. In questo caso, di solito stiamo aggiornando il nostro apprendimento – quali sono le migliori azioni da intraprendere – continuamente, anziché attendere un certo punto di svolta, in cui riflettiamo in modo massivo o persino fino alla fine delle nostre vite.

Per risolvere questo caso di apprendimento continuo nel corso dei passi temporali, questo articolo esplorerà la famiglia di algoritmi Temporal Difference (TD), nello specifico SARSA(0), SARSA(λ) e Q-Learning. Sia SARSA(0) che SARSA(λ) sono varianti On-Policy dell’apprendimento Temporal Difference, mentre Q-Learning è la sua variante Off-Policy.