Dai un’occhiata a questo nuovo sistema di intelligenza artificiale chiamato Student of Games (SoG) che è in grado sia di battere gli esseri umani in una varietà di giochi che di imparare a giocare a nuovi giochi.

Scopri il nuovo sistema di intelligenza artificiale chiamato Student of Games (SoG), in grado di sconfiggere gli umani in una vasta gamma di giochi e di imparare a giocarne di nuovi.

C’è una lunga tradizione nell’uso dei giochi come indicatori delle prestazioni dell’intelligenza artificiale. Approcci basati sulla ricerca e sull’apprendimento hanno ottenuto buoni risultati in vari giochi con informazioni perfette, mentre i metodi basati sulla teoria dei giochi hanno avuto successo in alcune varianti imperfette del poker. Combinando la ricerca diretta, l’apprendimento tramite auto-gioco e il ragionamento game-teoretico, i ricercatori di EquiLibre Technologies, Sony AI, Amii e Midjourney, in collaborazione con il progetto DeepMind di Google, propongono Student of Games, un algoritmo ad uso generale che unifica i precedenti sforzi. Grazie alle sue alte prestazioni empiriche in giochi con informazioni perfette e imperfette, Student of Games rappresenta un significativo passo avanti nella sviluppo di algoritmi universali applicabili in qualsiasi contesto. Con il crescente potere di calcolo e di approssimazione, dimostrano che Student of Games è robusto e alla fine raggiunge un gioco impeccabile. Student of Games si comporta molto bene negli scacchi e nel Go, batte l’agente più forte disponibile pubblicamente nel poker heads-up no-limit Texas hold ’em e sconfigge l’agente di stato dell’arte in Scotland Yard. Questo gioco con informazioni imperfette illustra il valore della ricerca guidata, dell’apprendimento e del ragionamento game-teoretico.

Per mostrare quanto l’intelligenza artificiale sia progredita, è stato insegnato a un computer a giocare a un gioco da tavolo e poi è stato migliorato al punto da poter battere gli umani nel gioco. Con questo ultimo studio, il team ha compiuto progressi significativi nel creare un’intelligenza artificiale generale, in cui un computer può svolgere compiti precedentemente considerati impossibili per una macchina.

La maggior parte dei computer per il gioco da tavolo è stata progettata per giocare solo a un gioco, come gli scacchi. Progettando e costruendo tali sistemi, gli scienziati hanno creato una forma di intelligenza artificiale vincolata. I ricercatori di questo nuovo progetto hanno sviluppato un sistema intelligente in grado di competere in giochi che richiedono una vasta gamma di abilità.

Cos’è SoG – “Student Of Games”?

Unendo ricerca, apprendimento e analisi game-teoretica in un singolo algoritmo, SoG ha molte applicazioni pratiche. SoG comprende una tecnica chiamata GT-CFR per l’apprendimento di CVPN (Value and Policy Networks) e l’auto-gioco sonoro. In particolare, SoG è un algoritmo affidabile per giochi con informazioni ottimali e subottimali: SoG è garantito di generare una migliore approssimazione delle tecniche di minimax-ottimalità man mano che migliorano le risorse informatiche. Questa scoperta è anche dimostrata empiricamente nel poker di Leduc, dove la ricerca aggiuntiva porta al perfezionamento delle approssimazioni al momento del test, a differenza dei sistemi di RL puri che non utilizzano la ricerca.

Perché SoG è così efficace?

SoG utilizza una tecnica chiamata minimizzazione dei rimpianti contropartita di albero crescente (GT-CFR), che è una forma di ricerca locale che può essere eseguita in qualsiasi momento e prevede la costruzione non uniforme di sotto-giochi per aumentare il peso dei sotto-giochi con cui sono associati gli stati futuri più importanti. Inoltre, SoG utilizza una tecnica di apprendimento chiamata auto-gioco sonoro, che addestra reti di valore e politiche basate sui risultati del gioco e su ricerche sub-ricorsive applicate a scenari scoperti in ricerche precedenti. Come un significativo passo verso gli algoritmi universali che possono essere appresi in qualsiasi situazione, SoG presenta buone prestazioni in diversi domini di problemi con informazioni perfette e imperfette. Nei giochi con informazioni inferiori, le applicazioni di ricerca standard affrontano problemi ben noti.

Riepilogo degli algoritmi

Il metodo SoG utilizza l’auto-gioco acustico per istruire l’agente: quando si prende una decisione, ogni giocatore utilizza una ricerca GT-CFR ben tarata combinata con una CVPN per produrre una politica per lo stato corrente, che viene poi utilizzata per estrarre casualmente un’azione. GT-CFR è un processo a due fasi che inizia con lo stato pubblico attuale e termina con un albero maturo. Il CFR dell’albero pubblico attuale viene aggiornato durante la fase di aggiornamento dei rimpianti. Durante la fase di espansione, nuove forme generali vengono aggiunte all’albero utilizzando traiettorie di espansione basate sulla simulazione. Le iterazioni GT-CFR comprendono una fase di aggiornamento dei rimpianti eseguita e una fase di espansione eseguita.

I dati di allenamento per le reti di valore e politiche sono generati durante il processo di auto-gioco: query di ricerca (stati di credenza pubblica richiesti dalla CVPN durante la fase di aggiornamento dei rimpianti GT-CFR) e traiettorie complete del gioco. Le query di ricerca devono essere risolte per aggiornare la rete di valore in base agli obiettivi di valore contropartita. La rete di politiche può essere regolata in base agli obiettivi derivati dalle traiettorie complete del gioco. Gli attori creano i dati di auto-gioco (e rispondono a domande) mentre i formatori scoprono ed implementano nuove reti e periodicamente aggiornano gli attori.

Alcune limitazioni

  • È possibile abbandonare l’uso di astrazioni di scommesse nel poker a favore di una politica di riduzione delle azioni generica per spazi di azioni ampi.
  • Un modello generativo che campiona gli stati del mondo e funziona sul sottoinsieme campionato potrebbe approssimare SoG, che attualmente richiede di enumerare ogni informazione dello stato pubblico, il che può essere proibitivamente costoso in alcuni giochi.
  • Le prestazioni elevate nei domini di sfida spesso richiedono una grande quantità di risorse informatiche; una domanda interessante è se questo livello di prestazioni sia raggiungibile con meno risorse.

Il team di ricerca crede che abbia il potenziale per avere successo anche in altri tipi di giochi grazie alla sua capacità di imparare da solo come giocare praticamente a qualsiasi gioco, e ha già battuto sistemi AI concorrenti e esseri umani a Go, scacchi, Scotland Yard e poker Texas Hold’em.