Apprendimento per Rinforzo Processo Decisionale di Markov – Parte 1

MDP Reinforcement Learning - Part 1

Presentazione della spina dorsale del Reinforcement Learning – Il Processo Decisionale di Markov

Immagine di Ricardo Gomez Angel su Unsplash

Nella maggior parte dei miei articoli precedenti, ho principalmente discusso di Apprendimento Supervisionato, con qualche accenno di Apprendimento Non Supervisionato. Tuttavia, in questo e nei prossimi articoli, cercherò di affrontare il problema del Reinforcement Learning e fornirvi, lettori, un’idea chiara e intuitiva al riguardo.

Cominciamo dandovi una panoramica generale dell’Apprendimento Automatico. Quindi nell’Apprendimento Automatico ci sono 3 diverse sotto-discipline principali, ovvero Apprendimento Non Supervisionato, Apprendimento Supervisionato e Reinforcement Learning. Cerchiamo prima di capire le differenze:

  1. Apprendimento Non Supervisionato: Trovare automaticamente un pattern o assegnare etichette a tutti i punti dati senza etichette – ogni punto è un vettore di tutte le caratteristiche – di solito attraverso il clustering. Immagina di trasferirti in una nuova stanza – contenente armadi e credenze – con tutti i tuoi oggetti personali. Studi attentamente la stanza e i tuoi oggetti e vedi quali oggetti sono simili tra loro, quindi metti in ordine la stanza riponendo i tuoi oggetti nelle rispettive posizioni categoriali. In sostanza, stai facendo Apprendimento Non Supervisionato – un processo in un solo passo.
  2. Apprendimento Supervisionato: Ora hai questi punti dati con etichette assegnate ad essi – ti viene insegnato a quale etichetta appartiene ciascuno di questi punti dati. Quindi trovi la funzione che è in grado di adattare questi punti dati all’etichetta corretta – trovando y≈f(x). Immagina questo: stai imparando il Reinforcement Learning e inizialmente hai alcune preconcetti. Quindi la tua f(x) viene inizializzata casualmente. Nel tempo, quando continui a rivedere il materiale didattico, i tuoi concetti diventano più solidi. In sostanza, questo y è il materiale didattico e f(x) è la tua comprensione. Come puoi vedere, l’Apprendimento Supervisionato è un processo in un solo passo.
  3. Reinforcement Learning: Il Reinforcement Learning è molto diverso dall’Apprendimento Supervisionato perché invece di fare affidamento su etichette per l’apprendimento, utilizza ricompense. Inoltre, il Reinforcement Learning è di solito un processo a più passi – molti stati, con punti dati per ciascuno stato – e per ogni stato, l’agente sceglie azioni con l’obiettivo di massimizzare le ricompense a lungo termine. Nell’Apprendimento Supervisionato, l’etichetta y