I ricercatori dell’Università di Tokyo hanno sviluppato un esteso schema di apprendimento rinforzato fototonico che si sposta dal problema statico del bandito verso un ambiente dinamico più sfidante.

I ricercatori dell'Università di Tokyo hanno sviluppato uno schema di apprendimento rinforzato fototonico più sfidante.

Nel mondo dell’apprendimento automatico, il concetto di apprendimento per rinforzo ha preso il centro della scena, consentendo agli agenti di conquistare compiti attraverso tentativi ed errori iterativi all’interno di un ambiente specifico. Mette in evidenza i successi in questo campo, come l’utilizzo di approcci fotonici per l’outsourcing dei costi computazionali e il sfruttamento delle caratteristiche fisiche della luce. Sottolinea la necessità di estendere questi metodi a problemi più complessi che coinvolgono agenti multipli e ambienti dinamici. Attraverso questo studio dell’Università di Tokyo, i ricercatori mirano a combinare l’algoritmo bandit con il Q-learning per creare un bandit Q-learning modificato (BQL) che possa accelerare l’apprendimento e fornire intuizioni sulla cooperazione multiagente, contribuendo in ultima analisi all’avanzamento della tecnica di rinforzo fotonico.

I ricercatori hanno utilizzato il concetto di problemi di mondo a griglia. In questo caso, un agente si muove all’interno di una griglia 5*5, ogni cella rappresenta uno stato. Ad ogni passo, l’agente deve compiere l’azione – su, giù, sinistra o destra – e ricevere la ricompensa e il prossimo stato. Le celle specifiche A e B offrono una ricompensa più elevata e spingono l’agente a spostarsi in celle diverse. Questo problema si basa su una politica deterministica, in cui l’azione dell’agente ne determina il movimento.

La funzione valore-azione Q(s, a) quantifica le ricompense future per coppie stato-azione date una politica π. Questa funzione rappresenta l’anticipazione dell’agente delle ricompense cumulative attraverso le sue azioni. L’obiettivo principale di questo studio è consentire all’agente di apprendere i valori Q ottimali per tutte le coppie stato-azione. Viene introdotto un Q-learning modificato, che integra l’algoritmo bandit e migliora il processo di apprendimento attraverso la selezione dinamica delle coppie stato-azione.

Questo schema di Q-learning modificato consente l’apprendimento parallelo, in cui più agenti aggiornano una tabella Q condivisa. La parallelizzazione potenzia il processo di apprendimento migliorando l’accuratezza e l’efficienza degli aggiornamenti della tabella Q. Si immagina un sistema di presa di decisioni che sfrutta i principi dell’interferenza quantistica dei fotoni per garantire che le azioni simultanee dell’agente rimangano distinte senza comunicazione diretta.

I ricercatori hanno pianificato di sviluppare un algoritmo che consente agli agenti di agire in modo continuo e applicare il loro metodo in compiti di apprendimento più complessi. In futuro, gli autori mirano a creare un sistema fotonico che consenta decisioni senza conflitti tra almeno tre agenti, migliorando l’armonia nella presa di decisioni.