Una pietra angolare di RL – TD(λ) e 3 grandi nomi

RL - TD(λ) and 3 big names

Come Monte Carlo, SARSA e Q-learning possono essere derivati da TD(λ)

Foto di Loïc Barré su Unsplash

I fondamenti sono molto importanti. Prima di addentrarsi negli algoritmi moderni nell’apprendimento per rinforzo (RL), è fondamentale comprendere i principi fondamentali su cui sono costruiti.

Nel campo del RL, ciò significa che dobbiamo apprezzare il concetto di apprendimento Temporal Difference (TD), che si generalizza in TD(λ). Utilizzando un unico codice con poche righe, mostrerò come una forma generalizzata di un classico problema di RL può essere risolta tramite

  1. Monte Carlo,
  2. SARSA,
  3. Q-learning, e
  4. TD(λ) con 0 < λ < 1.

I risultati sono presentati come gif, utilizzando funzioni di utilità che è possibile riutilizzare facilmente. Come anticipazione, sarai in grado di generare tu stesso quanto segue alla fine di questo articolo!

Il nostro agente (rappresentato da una faccina sorridente 😃) parte dalla griglia blu e cerca di raggiungere la griglia gialla. La griglia rossa porta a una grave penalità negativa e termina l’episodio, mentre la griglia arancione comporta una certa penalità ma non è uno stato terminale. L’ambiente è ventoso e, per complicare ulteriormente le cose, l’agente può muoversi in una direzione diversa a causa di una transizione stocastica. Ecco perché il movimento può differire dalla policy (indicata dalle frecce). Nota che la policy potrebbe sembrare controintuitiva a prima vista. Ti assicuro che è corretta, a causa di come è definito l’ambiente!

Qui si presume una conoscenza di base del RL, anche se riassumerò brevemente i concetti chiave in modo che il contenuto sia accessibile anche per i professionisti di altri ambiti di apprendimento automatico.

Il quadro generale

Obiettivo centrale del RL

Alla base, il RL consiste nell’apprendere a compiere una sequenza di azioni che massimizzano le ricompense cumulative totali attese. Si tiene conto delle conseguenze ritardate, comprese le limitazioni sul set di azioni disponibili in diversi stati.