Il gioco del maestro dell’AI di DeepMind impara 26 giochi in 2 ore.

DeepMind's AI master game learns 26 games in 2 hours.

Il reinforcement learning, una delle aree di ricerca principali di Google DeepMind, ha un enorme potenziale per risolvere problemi del mondo reale utilizzando l’IA. Tuttavia, l’inefficienza dei dati di formazione e della potenza di calcolo ha posto significativi ostacoli. DeepMind, in collaborazione con ricercatori di Mila e dell’Università di Montréal, ha introdotto un agente di intelligenza artificiale che sfida queste limitazioni. Questo agente, noto come modello Bigger, Better, Faster (BBF), ha raggiunto prestazioni superumane su Atari benchmarks apprendendo 26 giochi in soli due ore. Questo notevole risultato apre nuove porte per metodi di formazione efficienti di IA e sblocca possibilità per futuri progressi negli algoritmi di RL.

Per saperne di più: Sblocca l’incredibile potenziale del reinforcement learning e affronta sfide del mondo reale utilizzando le ultime tecniche di IA nel nostro workshop al DataHack Summit 2023.

La sfida dell’efficienza del reinforcement learning

Il reinforcement learning è stato a lungo riconosciuto come un approccio promettente per consentire all’IA di affrontare compiti complessi. Tuttavia, gli algoritmi RL tradizionali soffrono di inefficienze che ne ostacolano l’implementazione pratica. Questi algoritmi richiedono dati di formazione estesi e una considerevole potenza di calcolo, rendendoli intensivi in termini di risorse e di tempo.

Leggi anche: Guida completa al reinforcement learning

Il modello Bigger, Better, Faster (BBF): supera gli esseri umani

Il nuovo successo di DeepMind proviene dal modello BBF, che ha dimostrato prestazioni eccezionali su Atari benchmarks. Sebbene gli agenti RL precedenti abbiano superato i giocatori umani nei giochi Atari, ciò che distingue il BBF è la sua capacità di ottenere risultati così impressionanti in soli due ore di gioco, un lasso di tempo equivalente a quello disponibile per i tester umani.

Model-Free Learning: un nuovo approccio

Il successo di BBF può essere attribuito al suo unico approccio di apprendimento senza modello. Con la dipendenza dalle ricompense e dalle punizioni ricevute attraverso le interazioni con il mondo di gioco, BBF evita la necessità di costruire un modello di gioco esplicito. Questo processo snello consente all’agente di concentrarsi esclusivamente sull’apprendimento e sull’ottimizzazione delle sue prestazioni, con risultati di formazione più rapidi ed efficienti.

Leggi anche: Migliorare il reinforcement learning con il feedback umano usando OpenAI e TensorFlow

Metodi di formazione migliorati ed efficienza computazionale

Il rapido successo di BBF è il risultato di diversi fattori chiave. Il team di ricerca ha impiegato una rete neurale più grande, ha raffinato i metodi di formazione di auto-monitoraggio e ha implementato varie tecniche per migliorare l’efficienza. In particolare, BBF può essere addestrato su una singola GPU Nvidia A100, riducendo le risorse di calcolo richieste rispetto ai precedenti approcci.

Progressi nei benchmark: un trampolino di lancio per gli sviluppi di RL

Sebbene BBF non abbia ancora superato le prestazioni umane in tutti i giochi del benchmark, supera altri modelli in termini di efficienza. In confronto ai sistemi addestrati su 500 volte più dati su tutti i 55 giochi, l’algoritmo efficiente di BBF dimostra prestazioni comparabili. Questo risultato conferma la validità del benchmark Atari e fornisce incoraggiamento a team di ricerca più piccoli che cercano finanziamenti per i loro progetti RL.

Oltre Atari: espandere la frontiera del RL

Sebbene il successo del modello BBF sia stato dimostrato sui giochi Atari, le sue implicazioni vanno oltre questo dominio specifico. Le tecniche di apprendimento efficienti e le scoperte raggiunte con BBF aprono la strada a ulteriori progressi nel reinforcement learning. I ricercatori sono ispirati a spingere i limiti dell’efficienza del campionamento nel deep RL, rendendo sempre più fattibile l’obiettivo di raggiungere prestazioni a livello umano con efficienza superumana su tutti i compiti.

Leggi anche: Le ricerche suggeriscono un framework di incentivazione che supera il reinforcement learning

Implicazioni per il panorama dell’IA: un passo verso l’equilibrio

L’emergere di algoritmi RL più efficienti, come BBF, rappresenta un passo vitale verso l’instaurazione di un panorama dell’IA equilibrato. Mentre i modelli auto-supervisionati hanno dominato il campo, l’efficienza e l’efficacia degli algoritmi RL possono offrire una valida alternativa. Il successo di DeepMind con BBF suscita speranze per un futuro in cui RL può svolgere un ruolo significativo nell’affrontare sfide complesse del mondo reale attraverso l’IA.

La nostra opinione

Lo sviluppo da parte di DeepMind del modello BBF, in grado di apprendere 26 giochi in soli due ore, segna una pietra miliare significativa nel reinforcement learning. Introducendo un algoritmo di apprendimento senza modello e sfruttando metodi di formazione migliorati, DeepMind ha rivoluzionato l’efficienza del RL. Questa svolta spinge avanti il campo e ispira i ricercatori a continuare a spingere i limiti dell’efficienza del campionamento. Il futuro mira a prestazioni a livello umano con efficienza senza pari su tutti i compiti.