Perché di più è meglio (nell’Intelligenza Artificiale)

Più è meglio (nell'IA)

Come le Reti Neurali di Grandi Dimensioni Generalizzano

Il meno è di più. – Ludwig Mies van der RoheIl meno è di più solo quando il più è troppo. – Frank Loyd Wright

Le reti neurali profonde (DNN) hanno trasformato profondamente il panorama dell’apprendimento automatico, diventando spesso sinonimo dei più ampi campi dell’intelligenza artificiale e dell’apprendimento automatico. Tuttavia, la loro ascesa sarebbe stata impensabile senza il loro complice: la discesa del gradiente stocastica (SGD).

SGD, insieme ai suoi ottimizzatori derivati, costituisce il nucleo di molti algoritmi di auto-apprendimento. Nel suo cuore, il concetto è semplice: calcolare la perdita del compito utilizzando i dati di addestramento, determinare i gradienti di questa perdita rispetto ai suoi parametri, e quindi regolare i parametri in una direzione che minimizzi la perdita.

Sembra semplice, ma nelle applicazioni si è dimostrato estremamente potente: SGD può trovare soluzioni per tutti i tipi di problemi complessi e dati di addestramento, a condizione che venga utilizzato in combinazione con un’architettura sufficientemente espressiva. È particolarmente bravo nel trovare insiemi di parametri che permettono alla rete di funzionare perfettamente sui dati di addestramento, qualcosa che viene chiamato il regime di interpolazione. Ma in quali condizioni si ritiene che le reti neurali generalizzino bene, ossia che si comportino bene su dati di test non visti?

La ricerca della generalizzazione sta al centro dell'apprendimento automatico. Immaginato da DALL-E.

In qualche modo, è quasi troppo potente: le capacità di SGD non sono limitate solo ai dati di addestramento che possono portare a una buona generalizzazione. È stato dimostrato, ad esempio, in questo influente articolo, che SGD può far memorizzare perfettamente a una rete un insieme di immagini che sono state etichettate in modo casuale (esiste una profonda relazione tra la memoria e la generalizzazione di cui ho scritto in precedenza). Anche se ciò potrebbe sembrare impegnativo, dato lo scostamento tra le etichette e il contenuto delle immagini, è sorprendentemente semplice per le reti neurali addestrate con SGD. In effetti, non è molto più impegnativo rispetto all’adattamento dei dati genuini.

Questa capacità indica che le NN, addestrate con SGD, corrono il rischio di sovradattamento, e misure per la regolarizzazione del sovradattamento, come le norme, l’arresto anticipato e la riduzione della dimensione del modello, diventano cruciali per evitarlo.

Dal punto di vista della statistica classica, il meno è di più, e quindi più è meno, come riassunto in modo conciso in…