La ricerca di Google DeepMind esplora il fenomeno misterioso del Grokking nelle reti neurali svelando l’interazione tra memorizzazione e generalizzazione

Google DeepMind research explores the mysterious phenomenon of Grokking in neural networks, revealing the interaction between memorization and generalization.

La teoria tradizionale su come le reti neurali apprendono e generalizzano viene messa alla prova dall’occorrenza di grokking nelle reti neurali. Quando una rete neurale viene addestrata, ci si aspetta che le prestazioni della rete sui dati di test migliorino allo stesso modo in cui la perdita di addestramento diminuisce e converge a un valore basso, ma alla fine il comportamento della rete si stabilizza. Sebbene la rete sembri prima memorizzare i dati di addestramento, il grokking aggiunge un comportamento strano che porta a una bassa e costante perdita di addestramento, ma a una scarsa generalizzazione. Sorprendentemente, la rete evolve verso una perfetta generalizzazione con ulteriori addestramenti.

A questo punto sorge una domanda: perché, anche dopo aver ottenuto una precisione di addestramento virtualmente perfetta, le prestazioni di test della rete migliorano notevolmente con ulteriori addestramenti? Una rete raggiunge prima una precisione di addestramento perfetta ma mostra una scarsa generalizzazione, e poi, con ulteriori addestramenti, si converte in una generalizzazione perfetta. Questo comportamento è essenzialmente il grokking nelle reti neurali. In un recente articolo di ricerca, un team di ricercatori ha proposto una spiegazione per il grokking basata sulla coesistenza di due tipi di soluzioni all’interno del compito che la rete sta cercando di apprendere. Le soluzioni erano le seguenti.

  1. Soluzione di generalizzazione: con questo approccio, la rete neurale è ben adatta a generalizzare verso nuovi dati. Con la stessa quantità di norma dei parametri, ovvero la grandezza dei parametri della rete, può creare logit o valori di output superiori, che si caratterizzano per un apprendimento più lento ma una maggiore efficienza.
  1. Soluzione di memorizzazione: la rete memorizza i dati di addestramento in questo approccio, il che porta a una precisione di addestramento perfetta ma a una generalizzazione inefficace. I circuiti di memoria acquisiscono rapidamente nuove informazioni, ma sono meno efficaci poiché richiedono un numero maggiore di input per generare gli stessi valori di logit.

Il team ha dichiarato che i circuiti di memorizzazione diventano meno efficaci all’aumentare della dimensione dell’insieme di dati di addestramento, ma i circuiti di generalizzazione sono per lo più inalterati. Ciò implica che esiste una dimensione critica dell’insieme di dati, ovvero una dimensione in cui sia i circuiti di generalizzazione che quelli di memorizzazione sono altrettanto efficaci. Il team ha convalidato le seguenti quattro ipotesi innovative, con forti prove a supporto della loro spiegazione.

  1. Gli autori hanno previsto e dimostrato che il grokking avviene quando una rete passa dalla memorizzazione dell’input iniziale all’enfasi progressiva sulla generalizzazione. La precisione del test aumenta a causa di questo cambiamento.
  1. Hanno suggerito l’idea di una dimensione critica dell’insieme di dati, in cui i circuiti di memorizzazione e di generalizzazione sono entrambi altrettanto efficaci. Questa dimensione critica rappresenta una fase cruciale nel processo di apprendimento.
  1. Ungrokking: una delle scoperte più inaspettate è stata l’occasione di “ungrokking”. Se la rete viene ulteriormente addestrata su un insieme di dati significativamente più piccolo della dimensione critica dopo aver compreso correttamente, regredisce da una precisione di test perfetta a una bassa precisione.
  1. Semi-grokking: la ricerca introduce il concetto di semi-grokking, in cui una rete attraversa una transizione di fase dopo essere stata addestrata su una dimensione dell’insieme di dati che bilancia l’efficacia dei circuiti di memorizzazione e di generalizzazione, ma raggiunge solo una precisione di test parziale, invece che perfetta. Questo comportamento dimostra l’interazione sottile tra vari meccanismi di apprendimento nelle reti neurali.

In conclusione, questa ricerca ha offerto una spiegazione approfondita e originale del fenomeno del grokking. Mostra che un fattore chiave che influenza il comportamento della rete durante l’addestramento è la coesistenza di soluzioni di memoria e di generalizzazione, nonché l’efficacia di queste soluzioni. Pertanto, con le previsioni e i dati empirici offerti, la generalizzazione delle reti neurali e le sue dinamiche possono essere comprese meglio.