Decifrare la memorizzazione nelle reti neurali un’analisi approfondita delle dimensioni del modello, della memorizzazione e della generalizzazione sui benchmark di classificazione delle immagini

Svelare la memorizzazione nelle reti neurali un'analisi approfondita delle dimensioni del modello, della memorizzazione e della generalizzazione utilizzando i benchmark di classificazione delle immagini

Per imparare statisticamente, è necessario bilanciare la memorizzazione dei dati di addestramento e il trasferimento ai campioni di prova. Tuttavia, il successo dei modelli neurali sovradimensionati getta dubbi su questa teoria; questi modelli possono memorizzare eppure generalizzare bene, come dimostra la loro capacità di abbinare correttamente etichette casuali, ad esempio. Per raggiungere la precisione perfetta nella classificazione, ovvero interpolare l’insieme di addestramento, tali modelli sono comunemente utilizzati nella pratica. Ciò ha suscitato una serie di studi sulla generalizzabilità di questi modelli.

Feldman ha dimostrato di recente che la memorizzazione può essere necessaria per la generalizzazione in determinati contesti. Qui, “memorizzazione” è definita da un termine basato sulla stabilità con fondamenta teoriche; le istanze ad alta memorizzazione sono quelle che il modello può correttamente categorizzare solo se incluse nell’insieme di addestramento. Per le reti neurali pratiche, questo termine consente di stimare il grado di memorizzazione1 di un campione di addestramento. Feldman e Zhang hanno esaminato il profilo di memorizzazione di una ResNet mentre la utilizzavano per classificare immagini utilizzando standard industriali.

Anche se si tratta di un’interessante prima occhiata a ciò che i modelli del mondo reale ricordano, rimane una domanda fondamentale: i modelli neurali più grandi memorizzano di più? I ricercatori di Google con sede a New York rispondono a questo argomento in modo empirico, fornendo una visione completa degli standard di classificazione delle immagini. Scoprono che gli esempi di addestramento mostrano una sorprendente varietà di traiettorie di memorizzazione in diverse dimensioni di modelli, con alcuni campioni che mostrano traiettorie a forma di cappello o di crescita della memorizzazione e altri che rivelano una diminuzione della memorizzazione in modelli più grandi.

Per produrre modelli di alta qualità di diverse dimensioni, i professionisti utilizzano un processo sistematico, la distillazione delle conoscenze. In particolare, comporta la creazione di modelli più piccoli di alta qualità (studenti) con la guida di modelli più grandi (insegnanti) ad alte prestazioni.

Il concetto di memorizzazione di Feldman è stato utilizzato per esaminare teoricamente la relazione tra memorizzazione e generalizzazione in una serie di dimensioni di modelli. Di seguito sono riportati i loro contributi basati sui risultati di esperimenti controllati:

  • Viene presentata un’indagine quantitativa sulla relazione tra complessità del modello (come la profondità o la larghezza di una ResNet) e memorizzazione per i classificatori di immagini. I risultati principali mostrano che all’aumentare della complessità del modello, la distribuzione della memorizzazione tra gli esempi diventa sempre più bi-modale. Notano anche che altri metodi computazionalmente fattibili per valutare la memorizzazione e, ad esempio, la difficoltà non catturano questa tendenza essenziale.
  • Vengono forniti esempi che mostrano diverse traiettorie di punteggio di memorizzazione tra diverse dimensioni di modelli e vengono identificati i quattro tipi di traiettoria più frequenti, inclusi quelli in cui la memorizzazione aumenta con la complessità del modello, per approfondire ulteriormente la tendenza di memorizzazione bi-modale. In particolare, si scopre che i casi poco chiari e quelli con etichette errate seguono questo pattern.
  • Riguardo agli esempi che lo studente (ossia non distillato) memorizza a tutto campo, i ricercatori concludono con uno studio quantitativo che mostra come la distillazione tenda a ostacolare la memorizzazione. Curiosamente, scoprono che la memorizzazione è ostacolata principalmente nei casi in cui la memorizzazione migliora con la dimensione del modello. Questo risultato suggerisce che la distillazione aiuta la generalizzazione riducendo la necessità di memorizzare tali circostanze complesse.

I ricercatori iniziano analizzando quantitativamente la relazione tra complessità del modello (la profondità e la larghezza di una ResNet utilizzata per la classificazione delle immagini) e memorizzazione. Forniscono una rappresentazione grafica della relazione tra profondità della ResNet e punteggio di memorizzazione su due dataset ben noti (CIFAR-100 e ImageNet). La loro indagine rivela che, contrariamente alle loro convinzioni iniziali, il punteggio di memorizzazione diminuisce dopo aver raggiunto una profondità di 20.

I ricercatori concludono che all’aumentare della complessità del modello si verifica una maggiore distribuzione bi-modale della memorizzazione tra esempi diversi. Sottolineano anche un problema con gli attuali approcci computazionalmente fattibili per valutare la memorizzazione e la difficoltà degli esempi, mostrando che questi metodi non riescono a catturare questo pattern cruciale.

Il gruppo di studio fornisce esempi con diverse traiettorie di punteggio di memorizzazione tra diverse dimensioni di modelli per approfondire ulteriormente il pattern di memorizzazione bi-modale. Identificano quattro classi principali di traiettorie, una delle quali comporta un miglioramento della memorizzazione con la complessità del modello. In particolare, scoprono che sia i campioni poco chiari che quelli con etichette errate tendono a seguire questo pattern.

Lo studio si conclude con un’analisi quantitativa che mostra come il processo di distillazione, mediante il quale le conoscenze vengono trasferite da un grande modello insegnante a un modello studente più piccolo, sia associato a una diminuzione della memorizzazione. Questo blocco è più evidente nei campioni memorizzati dal modello studente non distillato. È interessante notare che la distillazione riduce principalmente la memorizzazione quando questa aumenta con la dimensione del modello. Sulla base di queste evidenze, possiamo concludere che la distillazione migliora la generalizzazione evitando di memorizzare troppi esempi difficili.

In conclusione:

La scoperta degli studiosi di Google ha notevoli implicazioni pratiche e potenziali direzioni future per la ricerca. Innanzitutto, è importante fare attenzione nel memorizzare dati specifici utilizzando solo proxy. Diverse metriche definite in termini di addestramento del modello o inferenza del modello sono state proposte come surrogati efficaci per il punteggio di memorizzazione in pubblicazioni precedenti. Questi proxy forniscono un alto tasso di accordo con la memorizzazione. Tuttavia, gli studiosi hanno scoperto che differiscono notevolmente nella distribuzione e non riescono a rappresentare caratteristiche essenziali del comportamento di memorizzazione dei modelli del mondo reale. Ciò suggerisce una strada da percorrere per individuare proxy computabili in modo efficace per i punteggi di memorizzazione. La complessità degli esempi è stata precedentemente classificata come una dimensione del modello predeterminata. I risultati dell’indagine mettono in evidenza il valore di considerare diverse dimensioni del modello quando si caratterizzano gli esempi. Ad esempio, Feldman definisce gli esempi della coda lunga di un insieme di dati come quelli con il punteggio di memorizzazione più alto per una certa architettura. I risultati mostrano che le informazioni memorizzate per una dimensione del modello potrebbero non essere applicabili a un’altra.