Apprendimento per Rinforzo Processo Decisionale di Markov – Parte 1
MDP Reinforcement Learning - Part 1
Presentazione della spina dorsale del Reinforcement Learning – Il Processo Decisionale di Markov
Nella maggior parte dei miei articoli precedenti, ho principalmente discusso di Apprendimento Supervisionato, con qualche accenno di Apprendimento Non Supervisionato. Tuttavia, in questo e nei prossimi articoli, cercherò di affrontare il problema del Reinforcement Learning e fornirvi, lettori, un’idea chiara e intuitiva al riguardo.
Cominciamo dandovi una panoramica generale dell’Apprendimento Automatico. Quindi nell’Apprendimento Automatico ci sono 3 diverse sotto-discipline principali, ovvero Apprendimento Non Supervisionato, Apprendimento Supervisionato e Reinforcement Learning. Cerchiamo prima di capire le differenze:
- Apprendimento Non Supervisionato: Trovare automaticamente un pattern o assegnare etichette a tutti i punti dati senza etichette – ogni punto è un vettore di tutte le caratteristiche – di solito attraverso il clustering. Immagina di trasferirti in una nuova stanza – contenente armadi e credenze – con tutti i tuoi oggetti personali. Studi attentamente la stanza e i tuoi oggetti e vedi quali oggetti sono simili tra loro, quindi metti in ordine la stanza riponendo i tuoi oggetti nelle rispettive posizioni categoriali. In sostanza, stai facendo Apprendimento Non Supervisionato – un processo in un solo passo.
- Apprendimento Supervisionato: Ora hai questi punti dati con etichette assegnate ad essi – ti viene insegnato a quale etichetta appartiene ciascuno di questi punti dati. Quindi trovi la funzione che è in grado di adattare questi punti dati all’etichetta corretta – trovando
y≈f(x)
. Immagina questo: stai imparando il Reinforcement Learning e inizialmente hai alcune preconcetti. Quindi la tuaf(x)
viene inizializzata casualmente. Nel tempo, quando continui a rivedere il materiale didattico, i tuoi concetti diventano più solidi. In sostanza, questoy
è il materiale didattico ef(x)
è la tua comprensione. Come puoi vedere, l’Apprendimento Supervisionato è un processo in un solo passo. - Reinforcement Learning: Il Reinforcement Learning è molto diverso dall’Apprendimento Supervisionato perché invece di fare affidamento su etichette per l’apprendimento, utilizza ricompense. Inoltre, il Reinforcement Learning è di solito un processo a più passi – molti stati, con punti dati per ciascuno stato – e per ogni stato, l’agente sceglie azioni con l’obiettivo di massimizzare le ricompense a lungo termine. Nell’Apprendimento Supervisionato, l’etichetta
y
…