Mani in profondità Q-Learning

Le mani a fondo con Q-Learning

APPRENDIMENTO PER RINFORZO

Potenzia il tuo agente per vincere giochi più difficili!

Foto di Sean Stratton su Unsplash

L’apprendimento per rinforzo è uno dei campi più affascinanti dell’apprendimento automatico. A differenza dell’apprendimento supervisionato, i modelli di apprendimento per rinforzo possono imparare processi complessi indipendentemente, anche senza dati elegantemente tabulati.

Per me, è divertente vedere gli agenti di intelligenza artificiale vincere giochi video, ma puoi anche utilizzare l’apprendimento per rinforzo per risolvere problemi aziendali. Basta trattarlo come un gioco e via! Devi solo definire…

  • l’ambiente in cui vive il tuo agente,
  • quali decisioni può prendere il tuo agente, e
  • come si definiscono successo e fallimento.
Esempio di un agente di intelligenza artificiale che padroneggia un gioco. Prendi un cliente e portalo all'hotel. Immagine dell'autore.

Prima di continuare, ti prego di leggere il mio articolo introduttivo sull’apprendimento per rinforzo. Ti fornisce ulteriori contesti e ti mostra come condurre tu stesso una forma semplice, ma efficace, di apprendimento per rinforzo. Serve anche da base per questo articolo.

Guida del praticante all’apprendimento per rinforzo

Fai i primi passi nella scrittura di agenti di intelligenza artificiale vincenti per giochi

towardsdatascience.com

In questo articolo, imparerai il deep Q-learning, perché ne abbiamo bisogno e come implementarlo te stesso per padroneggiare un gioco che sembra molto più difficile rispetto a quelli presenti nel mio altro articolo.

Puoi trovare il codice nel mio Github.

Ampiezioni degli spazi di osservazione

Nell’articolo sopra linkato, abbiamo condotto il Q-learning per far sì che un agente giocasse a alcuni giochi semplici con spazi di osservazione discreti. Nel gioco del Frozen Lake, ad esempio, hai 16 campi (=stati o osservazioni, uso questi termini in modo intercambiabile da ora in poi) su cui puoi stare nella mappa 4×4. Nella versione del gioco di carte Blackjack della ginnastica, ci sono 32 · 11 · 2 = 704 stati.

Inefficienze del Q-Learning