Verso la comprensione del modello di miscele di esperti

Alla scoperta del modello delle miscele di esperti

Nuove ricerche rivelano cosa succede sotto il cofano quando addestriamo i modelli MoE

Immagine creata dall'autore con Midjourney

I modelli Mixtures of Expert (MoE) sono rapidamente diventati una delle tecnologie più potenti nelle applicazioni di ML moderne, consentendo progressi come il Transformer Switch e il GPT-4. In realtà, stiamo appena incominciando a vedere il loro impatto completo!

Tuttavia, sorprendentemente si sa ancora poco su perché esattamente MoE funzioni in primo luogo. Quando funziona MoE? Perché il gate non invia semplicemente tutti gli esempi di addestramento allo stesso esperto? Perché il modello non collassa in uno stato in cui tutti gli esperti sono identici? In cosa esattamente si specializzano gli esperti e in cosa? Cosa esattamente impara il gate?

Fortunatamente, la ricerca ha cominciato a fare luce su queste domande. Diamo un’occhiata.

Modelli MoE – un’introduzione generale

Fonte dell'immagine: Adaptive Mixtures of Local Experts

Come breve promemoria, MoE è stato inventato nel 1991 dall’articolo “Adaptive Mixtures of Local Experts”, co-scritto nientemeno che dal padrino dell’AI stesso, Geoffrey Hinton. L’idea chiave di MoE è modellare un output y dato un input x combinando un certo numero di “esperti” E, il cui peso è controllato da una “rete di gating” G,

dove la rete di gating G è basata su un modello lineare semplice,

dove W è una matrice apprendibile che assegna gli esempi di addestramento agli esperti. Nell’addestramento dei modelli MoE, l’obiettivo dell’apprendimento è quindi duplice:

  1. gli esperti impareranno a processare l’input che gli viene dato nel miglior output possibile (cioè una previsione), e
  2. il gate imparerà a “instradare” gli esempi di addestramento giusti agli esperti giusti, cioè imparerà la matrice di instradamento W.

Si è dimostrato che MoE è particolarmente potente quando eseguiamo il calcolo solo sul singolo esperto con il valore di gating maggiore, cioè approssimiamo y come

dove I è l’indice del valore massimo di G. Chiamiamo questo “instradamento rigido” o “gate sparso”, ed è stata la tecnica chiave dietro i progressi come il…