Ricercatori di DeepMind ridefiniscono l’apprendimento continuo del rinforzo con una precisa definizione matematica

DeepMind redefine reinforcement learning with a precise mathematical definition.

Gli ultimi progressi nel deep Reinforcement Learning (RL) hanno dimostrato una performance superumana da parte di agenti artificialmente intelligenti (AI) in una varietà di compiti impressionanti. Gli approcci attuali per raggiungere questi risultati consistono nello sviluppo di un agente che impara principalmente come padroneggiare un compito specifico di interesse. Gli agenti non addestrati devono eseguire spesso questi compiti e non c’è garanzia che si generalizzino a nuove variazioni, anche per un semplice modello RL. Al contrario, gli esseri umani acquisiscono continuamente conoscenza e si adattano a nuovi scenari durante la loro vita. Questo è chiamato apprendimento continuo con rinforzo (CRL).

La visione dell’apprendimento in RL è che l’agente interagisce con l’ambiente markoviano per identificare un comportamento ottimale in modo efficiente. La ricerca di un comportamento ottimale sarebbe il punto di fine dell’apprendimento. Ad esempio, immagina di giocare a un gioco ben definito. Una volta che hai padroneggiato il gioco, il compito è completo e smetti di imparare nuovi scenari di gioco. Bisogna considerare l’apprendimento come un’adattamento senza fine anziché come la ricerca di una soluzione.

L’apprendimento continuo con rinforzo (CRL) coinvolge tale studio. È un apprendimento supervisionato, senza fine e continuo. I ricercatori di DeepMind formalizzano il concetto di agenti in due passaggi. Uno è comprendere ogni agente come una ricerca implicita su un insieme di comportamenti e l’altro è che ogni agente continuerà o si fermerà eventualmente su una scelta di comportamento. I ricercatori definiscono una coppia di generatori correlati agli agenti come generatori di operatori di raggiungimento. Utilizzando questa formalizzazione, definiscono CRL come un problema RL in cui tutti gli agenti non smettono mai la loro ricerca.

Costruire una rete neurale richiede una base con un assegnamento qualsiasi di pesi sui suoi elementi e un meccanismo di apprendimento per aggiornare gli elementi attivi della base. I ricercatori affermano che in CRL, il numero di parametri della rete è limitato da ciò che possiamo costruire e il meccanismo di apprendimento può essere considerato come una discesa del gradiente stocastica anziché un metodo di ricerca della base in modo non vincolato. Qui, la base non è arbitraria.

I ricercatori scelgono una classe di funzioni che agiscono come rappresentazioni del comportamento e utilizzano regole di apprendimento specifiche per reagire alle esperienze in modo desiderabile. La scelta della classe di funzioni dipende dalle risorse disponibili o dalla memoria. Il metodo della discesa del gradiente stocastica aggiorna la scelta corrente della base per migliorare le prestazioni. Anche se la scelta della base non è arbitraria, ciò comporta la progettazione dell’agente così come i vincoli imposti dall’ambiente.

I ricercatori sostengono che ulteriori studi sulle regole di apprendimento possono modificare direttamente la progettazione di nuovi algoritmi di apprendimento. Caratterizzare la famiglia di regole di apprendimento continuo garantirà il rendimento di agenti di apprendimento continuo, che possono essere ulteriormente utilizzati per guidare la progettazione di agenti di apprendimento continuo basati su principi. Intendono anche indagare ulteriormente metodi come la perdita di plasticità, l’apprendimento contestuale e l’oblio catastrofico.