Questo articolo sull’IA propone Soft MoE un trasformatore sparso completamente differenziabile che affronta queste sfide mantenendo i vantaggi delle MoE

This article on AI proposes Soft MoE, a fully differentiable sparse transformer that addresses these challenges while retaining the advantages of MoE.

È necessario un costo computazionale maggiore per far funzionare bene i Transformers più grandi. Ricerche recenti suggeriscono che la dimensione del modello e i dati di addestramento devono essere scalati contemporaneamente per utilizzare al meglio le risorse di calcolo di addestramento. Le miscele sparse di esperti sono un possibile sostituto che consente la scalabilità del modello senza incorrere nel loro pieno costo computazionale. I modelli linguistici, visivi e multimodali hanno sviluppato di recente metodi per attivare in modo sparso i percorsi dei token in tutta la rete. La scelta dei moduli da applicare a ciascun token di input è la sfida di ottimizzazione discreta al cuore dei Transformers MoE sparsi.

Questi moduli sono spesso MLP e sono chiamati esperti. Programmi lineari, apprendimento di rinforzo, regole fisse deterministiche, trasporto ottimale, esperti greedy top-k per token e token greedy top-k per esperto sono solo alcuni dei metodi utilizzati per identificare le coppie token-esperto appropriate. Spesso sono necessarie perdite ausiliarie euristiche per bilanciare l’utilizzo degli esperti e ridurre i token non assegnati. Piccole dimensioni di batch di inferenza, input unici o apprendimento di trasferimento possono peggiorare questi problemi in impostazioni fuori distribuzione. I ricercatori di Google DeepMind forniscono una nuova strategia chiamata Soft MoE che affronta diversi di questi problemi.

Le Soft MoE eseguono un’assegnazione soft combinando i token anziché utilizzare un router sparso e discreto che cerca una buona assegnazione hard tra token ed esperti. In particolare, costruiscono diverse medie ponderate di tutti i token, i cui pesi dipendono sia dai token che dagli esperti, e quindi elaborano ciascuna media ponderata tramite l’esperto pertinente. La maggior parte dei problemi sopra descritti, causati dal processo discreto al centro dei MoE sparsi, sono assenti nei modelli Soft MoE. Le perdite ausiliarie che impongono alcuni comportamenti desiderabili e dipendono dai punteggi di routing sono una fonte comune di gradienti per i metodi MoE sparsi popolari, che apprendono i parametri del router post-moltiplicando le uscite degli esperti con i punteggi di routing scelti.

Questi algoritmi spesso si comportano in modo simile a un routing fisso casuale, secondo le osservazioni. Soft MoE evita questo problema aggiornando immediatamente ciascun parametro di routing in base a ciascun token di input. Hanno osservato che percentuali enormi di token di input potrebbero modificare contemporaneamente percorsi discreti attraverso la rete, creando problemi di addestramento durante l’addestramento. Il routing soft può fornire stabilità durante l’addestramento di un router. Il routing hard può essere difficile anche con numerosi specialisti, poiché la maggior parte delle opere si prepara solo con un piccolo numero. Dimostrano che Soft MoE è scalabile a migliaia di esperti e viene costruito per essere bilanciato.

Ultimo ma non meno importante, non ci sono effetti di batch durante l’inferenza, dove un singolo input potrebbe influenzare il routing e la previsione per più input. Pur impiegando circa la metà del tempo per l’addestramento, Soft MoE L/16 supera ViT H/14 in upstream, few-shot e finetuning ed è più veloce nell’inferenza. Inoltre, dopo una quantità comparabile di addestramento, Soft MoE B/16 batte ViT H/14 nelle misure upstream e si abbina a ViT H/14 nelle modalità few-shot e finetuning. Anche se Soft MoE B/16 ha 5,5 volte più parametri rispetto a ViT H/14, esegue l’inferenza 5,7 volte più velocemente.