Ultima Miscela di Esperti (MoE) del Modello 8x7B di Mistral AI

Ultima Miscela di Esperti (MoE) del Modello 8x7B di Mistral AI Stile e Bellezza in un'unica formula

Mistral AI, una startup di modelli open-source con sede a Parigi, ha sfidato le norme rilasciando il suo ultimo grande modello di lingua (LLM), MoE 8x7B, attraverso un semplice link torrent. Ciò contrasta con l’approccio tradizionale di Google con la loro release Gemini, suscitando conversazioni ed eccitazione nella comunità dell’IA.

L’approccio di Mistral AI ai rilasci è sempre stato non convenzionale. Spesso rinunciando agli accompagnamenti usuali come paper, blog o comunicati stampa, la loro strategia è stata unica ed efficace nel catturare l’attenzione della comunità dell’IA.

Di recente, l’azienda ha raggiunto una notevole valutazione di 2 miliardi di dollari dopo una fase di finanziamento guidata da Andreessen Horowitz. Questa fase di finanziamento ha fatto la storia, stabilendo un record con una fase di finanziamento seed da 118 milioni di dollari, la più grande nella storia europea. Oltre ai successi finanziari, l’attiva partecipazione di Mistral AI nelle discussioni attorno all’EU AI Act, sostenendo una riduzione della regolamentazione nell’IA open-source.

Perché MoE 8x7B sta attirando l’attenzione

Descritto come un “GPT-4 in scala ridotta”, Mixtral 8x7B utilizza un framework di Mixture of Experts (MoE) con otto esperti. Ogni esperto dispone di 111 miliardi di parametri, per un totale di 166 miliardi di parametri per modello. Questa scelta di progettazione è significativa poiché consente che solo due esperti siano coinvolti nell’inferenza di ogni token, evidenziando uno spostamento verso un’elaborazione dell’IA più efficiente e focalizzata.

Uno dei punti salienti di Mixtral è la sua capacità di gestire un ampio contesto di 32.000 token, offrendo ampie possibilità nell’affrontare compiti complessi. Le capacità multilingue del modello includono un forte supporto per l’inglese, il francese, l’italiano, il tedesco e lo spagnolo, rivolgendosi a una comunità globale di sviluppatori.

Il pre-training di Mixtral prevede l’utilizzo di dati provenienti dal Web aperto, con un approccio di addestramento simultaneo per esperti e router. Questo metodo garantisce che il modello sia vasto non solo nello spazio dei suoi parametri, ma anche attentamente adattato alle sfumature dei vasti dati a cui è stato esposto.

Mixtral 8x7B raggiunge un punteggio impressionante

Mixtral 8x7B raggiunge un punteggio impressionante

Mixtral 8x7B surclassa LLaMA 2 70B e sfida GPT-3.5, soprattutto nel compito di MBPP con un tasso di successo del 60,7%, significativamente più alto rispetto alle controparti. Anche nel rigoroso MT-Bench studiato per modelli di seguire istruzioni, Mixtral 8x7B ottiene un punteggio impressionante, quasi al pari di GPT-3.5

Comprensione del framework di Mixture of Experts (MoE)

Il modello Mixture of Experts (MoE), pur ottenendo recente attenzione per la sua incorporazione in modelli di lingua all’avanguardia come il MoE 8x7B di Mistral AI, è in realtà radicato in concetti fondamentali che risalgono a diversi anni fa. Ripercorriamo le origini di questa idea attraverso ricerche seminali.

Il concetto di MoE

Mixture of Experts (MoE) rappresenta un cambiamento di paradigma nell’architettura delle reti neurali. A differenza dei modelli tradizionali che utilizzano una rete singolare e omogenea per elaborare tutti i tipi di dati, MoE adotta un approccio più specializzato e modulare. È costituito da multiple reti “esperte”, ognuna progettata per gestire tipi specifici di dati o compiti, supervisionate da una rete “gating” che indirizza dinamicamente i dati di input all’esperto più appropriato.

Uno strato di Mixture of Experts (MoE) incorporato in un modello di lingua ricorrente

Uno strato di Mixture of Experts (MoE) incorporato in un modello di lingua ricorrente (Fonte)

 

L’immagine sopra presenta una visione ad alto livello di uno strato MoE incorporato all’interno di un modello di linguaggio. In sostanza, lo strato MoE comprende più sottoreti di feed-forward, chiamate ‘esperti’, ognuna con la capacità di specializzarsi nell’elaborazione di diversi aspetti dei dati. Una rete di gate, evidenziata nel diagramma, determina quale combinazione di questi esperti viene coinvolta per un determinato input. Questa attivazione condizionale consente alla rete di aumentare significativamente la sua capacità senza un corrispondente aumento della domanda computazionale.

Funzionalità dello strato MoE

Nella pratica, la rete di gate valuta l’input (indicato come G(x) nel diagramma) e seleziona un insieme sparso di esperti per elaborarlo. Questa selezione è modulata dagli output della rete di gate, determinando efficacemente il ‘voto’ o il contributo di ciascun esperto all’output finale. Ad esempio, come mostrato nel diagramma, solo due esperti possono essere scelti per calcolare l’output per ciascun token di input specifico, rendendo il processo efficiente concentrandolo sulle risorse computazionali dove sono più necessarie.

 

Encoder Transformer con strati MoE (Fonte)

La seconda illustrazione sopra confronta un tradizionale encoder Transformer con uno potenziato da uno strato MoE. L’architettura Transformer, ampiamente conosciuta per la sua efficacia nelle attività legate al linguaggio, consiste tradizionalmente in strati di autoattenzione e feed-forward impilati in sequenza. L’introduzione degli strati MoE sostituisce alcuni di questi strati di feed-forward, consentendo al modello di scalare in modo più efficace rispetto alla capacità.

Nel modello potenziato, gli strati MoE sono distribuiti su più dispositivi, mostrando un approccio di parallelo del modello. Questo è cruciale quando si scala a modelli molto grandi, in quanto consente la distribuzione del carico computazionale e dei requisiti di memoria su un cluster di dispositivi, come GPU o TPU. Questa distribuzione è essenziale per allenare e implementare modelli con miliardi di parametri in modo efficiente, come evidenziato dall’allenamento di modelli con centinaia di miliardi a oltre un trilione di parametri su cluster di calcolo su larga scala.

L’approccio MoE sparso con l’ottimizzazione delle istruzioni su LLM

Il documento intitolato “Sparse Mixture-of-Experts (MoE) for Scalable Language Modeling” discute un approccio innovativo per migliorare i Large Language Models (LLM) integrando l’architettura Mixture of Experts con tecniche di ottimizzazione delle istruzioni.

Evidenzia una sfida comune in cui i modelli MoE hanno una performance inferiore rispetto ai modelli densi con la stessa capacità computazionale quando vengono rifiniti per attività specifiche a causa delle discrepanze tra il pre-training generale e il fine-tuning specifico dell’attività.

L’ottimizzazione delle istruzioni è una metodologia di allenamento in cui i modelli vengono perfezionati per seguire meglio le istruzioni del linguaggio naturale, migliorandone efficacemente le prestazioni dell’attività. Il documento suggerisce che i modelli MoE mostrano un notevole miglioramento quando combinati con l’ottimizzazione delle istruzioni, più di quanto facciano i loro controparti densi. Questa tecnica allinea le rappresentazioni pre-allenate del modello per seguire le istruzioni in modo più efficace, portando a significativi aumenti delle prestazioni.

I ricercatori hanno condotto studi su tre configurazioni sperimentali, rivelando che i modelli MoE hanno inizialmente prestazioni inferiori nel fine-tuning specifico dell’attività diretta. Tuttavia, quando viene applicata l’ottimizzazione delle istruzioni, i modelli MoE eccellono, soprattutto quando vengono ulteriormente integrati con il fine-tuning specifico dell’attività. Ciò suggerisce che l’ottimizzazione delle istruzioni è un passaggio fondamentale affinché i modelli MoE superino i modelli densi nelle attività derivate.

L'effetto dell'ottimizzazione delle istruzioni su MOE

L’effetto dell’ottimizzazione delle istruzioni su MOE

Introduce anche FLAN-MOE32B, un modello che dimostra l’applicazione di successo di questi concetti. In particolare, supera FLAN-PALM62B, un modello denso, nelle attività di benchmark utilizzando solo un terzo delle risorse computazionali. Ciò dimostra il potenziale dei modelli MoE sparso combinati con l’ottimizzazione delle istruzioni per stabilire nuovi standard di efficienza e prestazioni per LLM.

Implementazione di Mixture of Experts in scenari reali

La versatilità dei modelli MoE li rende ideali per una serie di applicazioni:

  • Elaborazione del linguaggio naturale (NLP): i modelli MoE possono gestire le sfumature e le complessità del linguaggio umano in modo più efficace, rendendoli ideali per compiti avanzati di NLP.
  • Elaborazione di immagini e video: in attività che richiedono l’elaborazione ad alta risoluzione, MoE può gestire diversi aspetti di immagini o frame video, migliorando sia la qualità che la velocità di elaborazione.
  • Soluzioni AI personalizzabili: le aziende e i ricercatori possono adattare i modelli MoE a compiti specifici, ottenendo soluzioni AI più mirate ed efficaci.

Sfide e Considerazioni

Mentre i modelli MoE offrono numerosi vantaggi, presentano anche sfide uniche:

  • Complessità nella Formazione e nell’Accordatura: La natura distribuita dei modelli MoE può complicare il processo di formazione, richiedendo un equilibrio attento e un’accurata regolazione degli esperti e della rete di gating.
  • Gestione delle Risorse: La gestione efficiente delle risorse di calcolo tra vari esperti è cruciale per massimizzare i vantaggi dei modelli MoE.

Incorporare strati MoE nelle reti neurali, soprattutto nel dominio dei modelli di linguaggio, offre un percorso per scalare i modelli a dimensioni precedentemente impossibili a causa dei limiti computazionali. La computazione condizionale abilitata dagli strati MoE consente di distribuire in modo più efficiente le risorse di calcolo, rendendo possibile addestrare modelli più grandi e capaci. Man mano che continuiamo a richiedere sempre di più dai nostri sistemi di intelligenza artificiale, le architetture come il Transformer dotato di MoE sono destinate a diventare lo standard per l’affrontare compiti complessi su larga scala in diversi ambiti.