Apprendimento automatico con modelli esperti una guida introduttiva

Apprendimento automatico con modelli esperti' - Guida introduttiva

Come un’idea di decenni fa permette di addestrare reti neurali enormi oggi

(Pexels)

I modelli esperti sono una delle invenzioni più utili nell’apprendimento automatico, eppure non ricevono l’attenzione che meritano. Infatti, la modellazione esperta non solo ci consente di addestrare reti neurali “enormi” (ne parleremo più avanti), ma ci consente anche di costruire modelli che apprendono in modo più simile al cervello umano, cioè diverse regioni si specializzano in diversi tipi di input.

In questo articolo, faremo un tour delle principali innovazioni nella modellazione esperta che alla fine hanno portato a recenti avanzamenti come il Switch Transformer e l’algoritmo Expert Choice Routing. Ma torniamo prima al paper che ha dato il via a tutto: “Mixtures of Experts”.

Miscele di esperti (1991)

Il modello MoE originale del 1991. Credito immagine: Jabocs et al 1991, Adaptive Mixtures of Local Experts.

L’idea delle miscele di esperti (MoE) risale a più di 3 decenni fa, a un paper del 1991 scritto anche dal padrino dell’intelligenza artificiale, Geoffrey Hinton. L’idea chiave in MoE è modellare un’uscita “y” combinando un numero di “esperti” E, il cui peso è controllato da una “rete di gating” G:

Un esperto in questo contesto può essere qualsiasi tipo di modello, ma di solito viene scelto come una rete neurale multistrato, e la rete di gating è

dove W è una matrice apprendibile che assegna gli esempi di addestramento agli esperti. Quando si addestrano modelli MoE, l’obiettivo di apprendimento è quindi duplice:

  1. gli esperti impareranno a elaborare l’uscita che ricevono nel miglior modo possibile (cioè una previsione), e
  2. la rete di gating imparerà a “instradare” i giusti esempi di addestramento ai giusti esperti, apprendendo congiuntamente la matrice di instradamento W.

Perché fare tutto ciò? E perché funziona? A un livello più generale, ci sono tre principali motivazioni per utilizzare tale approccio:

Innanzitutto, MoE consente di scalare le reti neurali a dimensioni molto grandi grazie alla sparsetà del modello risultante, cioè anche se il modello complessivo è grande, solo una piccola…