Apprendimento rinforzato regolarizzato per entropia spiegato

Apprendimento rinforzato regolarizzato per entropia Una spiegazione dettagliata

Scopri politiche più affidabili, robuste e trasferibili aggiungendo bonus di entropia al tuo algoritmo

Foto di Jeremy Thomas su Unsplash

L’entropia è un concetto associato a uno stato di disordine, casualità o incertezza. Può essere considerata come una misura dell’informazione per variabili casuali. Tradizionalmente, è associata a campi come la termodinamica, ma il termine si è diffuso in molti altri ambiti.

Nel 1948, Claude Shannon ha introdotto il concetto di entropia nella teoria dell’informazione. In questo contesto, un evento viene considerato più informativo se ha una minore probabilità di accadere; l’informazione di un evento è inversamente correlata alla sua probabilità di occorrenza. Intuitivamente: impariamo di più dagli eventi rari.

Il concetto di entropia può essere formalizzato come segue:

Nell’Apprendimento per Rinforzo (RL), il concetto di entropia è stato utilizzato anche con lo scopo di incentivare l’esplorazione. In questo contesto, l’entropia è una misura della prevedibilità delle azioni restituite da una politica stocastica.

Concretamente, l’RL prende l’entropia della politica (ovvero la distribuzione di probabilità delle azioni) come un bonus e lo incorpora come componente di ricompensa. Questo articolo affronta il caso base, ma i bonus di entropia sono una parte integrante di molti algoritmi RL all’avanguardia.

Cos’è l’entropia?

Per prima cosa, cerchiamo di sviluppare un po’ di intuizione sul concetto di entropia. La figura sottostante mostra politiche con entropia bassa e alta, rispettivamente. La politica a bassa entropia è quasi deterministica; selezioniamo quasi sempre la stessa azione. Nella politica ad alta entropia, c’è molta più casualità nell’azione selezionata.

Esempio di politica a bassa entropia (sinistra) e politica ad alta entropia (destra). Nella politica ad alta entropia, c'è molta più casualità nella selezione dell'azione [immagine dell'autore]

Ora, consideriamo l’entropia di un lancio di moneta.

L’entropia di Shannon utilizza un log…