MuZero Padronanza di Go, scacchi, shogi e Atari senza regole

MuZero è un metodo di apprendimento automatico in grado di padroneggiare i giochi di Go, scacchi, shogi e Atari senza bisogno di regole.

Nel 2016 abbiamo introdotto AlphaGo , il primo programma di intelligenza artificiale (IA) a sconfiggere gli umani nel gioco antico del Go. Due anni dopo, il suo successore – AlphaZero – ha imparato da zero a padroneggiare il Go, gli scacchi e lo shogi. Ora, in un articolo pubblicato sulla rivista Nature , descriviamo MuZero, un significativo passo avanti nella ricerca di algoritmi ad uso generale. MuZero padroneggia il Go, gli scacchi, lo shogi e Atari senza bisogno di conoscere le regole, grazie alla sua capacità di pianificare strategie vincenti in ambienti sconosciuti.

Per molti anni, i ricercatori hanno cercato metodi che possano sia apprendere un modello che spieghi il loro ambiente, sia utilizzare quel modello per pianificare il miglior corso di azione. Fino ad ora, la maggior parte degli approcci ha faticato a pianificare in modo efficace in domini, come Atari, in cui le regole o la dinamica sono tipicamente sconosciute e complesse.

MuZero, introdotto per la prima volta in un documento preliminare nel 2019, risolve questo problema apprendendo un modello che si concentra solo sugli aspetti più importanti dell’ambiente per la pianificazione. Combinando questo modello con la potente ricerca ad albero di AlphaZero, MuZero ha ottenuto un nuovo risultato di stato dell’arte nel benchmark di Atari, contemporaneamente eguagliando le prestazioni di AlphaZero nelle sfide di pianificazione classiche di Go, scacchi e shogi. In questo modo, MuZero rappresenta un significativo balzo in avanti nelle capacità degli algoritmi di apprendimento per rinforzo.

Generalizzazione a modelli sconosciuti

La capacità di pianificare è una parte importante dell’intelligenza umana, che ci consente di risolvere problemi e prendere decisioni sul futuro. Ad esempio, se vediamo formarsi nuvole scure, potremmo prevedere che pioverà e decidere di prendere un ombrello con noi prima di uscire. Gli esseri umani apprendono questa capacità rapidamente e possono generalizzare a nuovi scenari, una caratteristica che vorremmo anche che i nostri algoritmi avessero.

I ricercatori hanno cercato di affrontare questa sfida principale nell’IA utilizzando due approcci principali: la ricerca con previsione o la pianificazione basata su modelli.

I sistemi che utilizzano la ricerca con previsione, come AlphaZero, hanno ottenuto un notevole successo in giochi classici come dama, scacchi e poker, ma dipendono dal fatto di conoscere la dinamica del loro ambiente, come le regole del gioco o un simulatore accurato. Ciò rende difficile applicarli a problemi reali disordinati, che sono tipicamente complessi e difficili da ridurre a regole semplici.

I sistemi basati su modelli mirano a affrontare questo problema apprendendo un modello accurato della dinamica di un ambiente e poi utilizzandolo per pianificare. Tuttavia, la complessità della modellazione di ogni aspetto di un ambiente ha comportato che questi algoritmi non siano in grado di competere in domini visivamente ricchi, come Atari. Fino ad ora, i migliori risultati su Atari sono stati ottenuti da sistemi privi di modelli, come DQN, R2D2 e Agent57. Come suggerisce il nome, gli algoritmi privi di modelli non utilizzano un modello appreso, ma stimano quale sia la migliore azione da intraprendere successivamente.

MuZero utilizza un approccio diverso per superare i limiti degli approcci precedenti. Invece di cercare di modellare l’intero ambiente, MuZero modella solo gli aspetti che sono importanti per il processo decisionale dell’agente. Dopotutto, sapere che un ombrello ti terrà asciutto è più utile da sapere che modellare il pattern delle gocce di pioggia nell’aria.

In particolare, MuZero modella tre elementi dell’ambiente che sono fondamentali per la pianificazione:

  • Il valore: quanto è buona la posizione attuale?
  • La policy: quale azione è la migliore da intraprendere?
  • La ricompensa: quanto è stata buona l’ultima azione?

Tutti questi elementi vengono appresi utilizzando una rete neurale profonda e sono tutto ciò di cui MuZero ha bisogno per capire cosa succede quando intraprende una determinata azione e pianificare di conseguenza.

Illustrazione di come la Ricerca ad Albero Monte Carlo può essere utilizzata per pianificare con le reti neurali MuZero. Partendo dalla posizione attuale nel gioco (schema del tavolo da Go in cima all'animazione), MuZero utilizza la funzione di rappresentazione (h) per mappare dall'osservazione ad un'incorporazione utilizzata dalla rete neurale (s0). Utilizzando la funzione di dinamica (g) e la funzione di previsione (f), MuZero può quindi considerare possibili sequenze future di azioni (a) e scegliere la migliore azione.
MuZero utilizza l'esperienza che raccoglie durante l'interazione con l'ambiente per addestrare la sua rete neurale. Questa esperienza include sia le osservazioni che le ricompense dall'ambiente, così come i risultati delle ricerche effettuate per decidere la migliore azione.
Durante l'addestramento, il modello viene srotolato insieme all'esperienza raccolta, prevendo ad ogni passo le informazioni salvate in precedenza: la funzione di valore v prevede la somma delle ricompense osservate (u), la stima della politica (p) prevede l'esito della ricerca precedente (π), la stima della ricompensa r prevede l'ultima ricompensa osservata (u).

Questo approccio porta anche un altro importante vantaggio: MuZero può utilizzare ripetutamente il suo modello appreso per migliorare la sua pianificazione, anziché raccogliere nuovi dati dall’ambiente. Ad esempio, nei test sulla suite Atari, questa variante – nota come MuZero Reanalyze – ha utilizzato il modello appreso il 90% delle volte per ripianificare ciò che avrebbe dovuto essere fatto negli episodi passati.

Prestazioni di MuZero

Abbiamo scelto quattro diversi domini per testare le capacità di MuZero. Go, scacchi e shogi sono stati utilizzati per valutare le sue prestazioni su problemi di pianificazione impegnativi, mentre abbiamo utilizzato la suite Atari come benchmark per problemi più complessi dal punto di vista visivo. In tutti i casi, MuZero ha stabilito un nuovo stato dell’arte per gli algoritmi di apprendimento per rinforzo, superando tutti gli algoritmi precedenti nella suite Atari e raggiungendo le prestazioni sovrumane di AlphaZero in Go, scacchi e shogi.

Prestazioni nella suite Atari utilizzando 200M o 20B frame per ciascuna esecuzione di addestramento. MuZero raggiunge un nuovo stato dell'arte in entrambe le configurazioni. Tutti i punteggi sono normalizzati rispetto alle prestazioni dei tester umani (100%), con i migliori risultati per ciascuna configurazione evidenziati in grassetto.

Abbiamo anche testato quanto bene MuZero possa pianificare con il suo modello appreso in modo più dettagliato. Abbiamo iniziato con la classica sfida di pianificazione di precisione in Go, dove una singola mossa può fare la differenza tra vincere e perdere. Per confermare l’intuizione che pianificare di più dovrebbe portare a risultati migliori, abbiamo misurato quanto più forte una versione completamente addestrata di MuZero può diventare quando gli viene dato più tempo per pianificare ogni mossa (vedi grafico a sinistra). I risultati hanno mostrato che la forza di gioco aumenta di oltre 1000 Elo (una misura della relativa abilità di un giocatore) aumentando il tempo per mossa da un decimo di secondo a 50 secondi. Questo è simile alla differenza tra un giocatore amatoriale forte e il giocatore professionista più forte.

A sinistra: La forza di gioco in Go aumenta significativamente all'aumentare del tempo disponibile per pianificare ogni mossa. Notare come la scala di crescita di MuZero sia quasi perfettamente in linea con quella di AlphaZero, che ha accesso a un simulatore perfetto. A destra: Il punteggio nel gioco Ms Pac-Man di Atari aumenta anche con la quantità di pianificazione per mossa durante l'addestramento. Ogni grafico mostra una diversa esecuzione di addestramento in cui a MuZero è stato permesso di considerare un diverso numero di simulazioni per mossa.

Per testare se la pianificazione porta benefici anche durante l’addestramento, abbiamo eseguito una serie di esperimenti sul gioco Atari Ms Pac-Man (grafico a destra) utilizzando istanze separate addestrate di MuZero. A ciascuna è stato consentito di considerare un diverso numero di simulazioni di pianificazione per mossa, da cinque a cinquanta. I risultati hanno confermato che aumentare la quantità di pianificazione per ogni mossa consente a MuZero di imparare più velocemente e ottenere una migliore prestazione finale.

Curiosamente, quando a MuZero è stato consentito di considerare solo sei o sette simulazioni per mossa, un numero troppo piccolo per coprire tutte le azioni disponibili in Ms Pac-Man, ha comunque ottenuto una buona prestazione. Ciò suggerisce che MuZero è in grado di generalizzare tra azioni e situazioni e non ha bisogno di esplorare esaustivamente tutte le possibilità per imparare efficacemente.

Nuovi orizzonti

La capacità di MuZero di apprendere un modello del proprio ambiente e utilizzarlo per pianificare con successo rappresenta un significativo avanzamento nell’apprendimento per rinforzo e nella ricerca di algoritmi a scopo generale. Il suo predecessore, AlphaZero, è già stato applicato a una serie di problemi complessi in chimica, fisica quantistica e oltre. Le idee alla base degli algoritmi di apprendimento e pianificazione potenti di MuZero potrebbero aprire la strada per affrontare nuove sfide nella robotica, nei sistemi industriali e in altri ambienti reali disordinati in cui non sono note le “regole del gioco”.

Link correlati:

  • MuZero: Articolo su Nature
  • Interviste a MuZero: NeurIPS (9 minuti, dicembre 2019), ICAPS (30 minuti, ottobre 2020)
  • MuZero: Preprint | Poster NeurIPS 2019
  • AlphaGo: Blog | Articolo