Cosa sappiamo su Mixtral 8x7B Mistral Nuovo LLM Open Source

Le novità su Mixtral 8x7B Mistral Nuovo LLM Open Source tutto ciò che devi sapere

Il nuovo modello sfrutta una miscela innovativa di architettura esperta.

Creato utilizzando DALL-E

Di recente ho avviato una newsletter educativa incentrata sull’intelligenza artificiale, che conta già più di 160.000 abbonati. TheSequence è una newsletter orientata all’apprendimento automatico, senza fronzoli (senza hype, senza notizie, ecc.), che richiede solo 5 minuti di lettura. L’obiettivo è tenervi aggiornati sui progetti di apprendimento automatico, sui paper di ricerca e sui concetti. Provatela iscrivendovi qui sotto:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per rimanere aggiornati sulle novità nell’apprendimento automatico, nell’intelligenza artificiale e nei dati…

thesequence.substack.com

Mistral AI è una delle aziende più innovative che spingono i confini degli LLM open-source. La prima versione di Mistral: Mistral 7B è diventata uno dei LLM open-source più utilizzati sul mercato. Qualche giorno fa, hanno rilasciato un link torrent con Mixtral 8x7B, la loro seconda versione, che suscita molta curiosità.

Ciò che rende Mixtral 8x7B così interessante è il fatto che esplora un nuovo paradigma architetturale che contrasta con l’approccio monolitico seguito dalla maggior parte degli LLM. Il modello si basa su un approccio di miscela di esperti, che, sebbene non sia nuovo, non è stato ancora sperimentato nello spazio LLM su grande scala.

Non esiste molto materiale pubblicato su Mixtral 8x7B, ma di seguito ho riportato alcune informazioni che potrebbero essere rilevanti:

L’architettura

Mixtral 8x7B si basa su un’architettura a mistura di esperti sparsi (SMoE), che unisce tecniche di modellazione sparsa con il framework della mistura di esperti.

Nella teoria dell’apprendimento profondo, i modelli sparsi sono sempre più riconosciuti per il loro potenziale. A differenza dei modelli densi tradizionali, in cui ogni componente interagisce con ogni input, i modelli sparsi utilizzano un metodo noto come computazione condizionale. Questa tecnica consente a Mistral di indirizzare input specifici a esperti designati all’interno della sua vasta rete. Questo approccio ha diversi vantaggi. Uno dei più notevoli è la capacità di espandere la dimensione del modello senza aumentare proporzionalmente le sue richieste computazionali. Questa scalabilità non solo è efficiente, ma anche sostenibile dal punto di vista ambientale, fondamentale per ottenere prestazioni elevate nei modelli di intelligenza artificiale. Inoltre, la sparsetà nelle reti neurali porta a una segmentazione naturale, che è vantaggiosa in scenari di multitasking e apprendimento continuo. I modelli densi spesso incontrano difficoltà in queste attività, affrontando problemi come interferenza negativa o dimenticanza catastrofica, in cui l’apprendimento di troppe attività contemporaneamente o in sequenza può portare a una diminuzione delle prestazioni per le attività precedenti.

Il componente SMoE di Mistral è composto da più esperti, ognuno dei quali è una semplice rete neurale feed-forward. Questi esperti sono gestiti da una rete di gating addestrabile. Il ruolo della rete di gating è cruciale: determina quale combinazione di esperti deve essere attivata per ogni specifico input. Questo processo di selezione è sparso, il che significa che vengono scelti solo pochi esperti per ogni input dato. L’intera rete di Mistral, compresi gli esperti e il sistema di gating, viene perfezionata attraverso la retropropagazione, un metodo fondamentale nell’addestramento delle reti neurali. Questo approccio di addestramento integrato garantisce che tutte le parti di Mistral lavorino in armonia, ottimizzando le sue prestazioni nella lavorazione e nell’analisi dei dati.

Crediti immagine: https://arxiv.org/abs/1701.06538

Mixtral 8x7B

Mixtral 8x7B si basa su un’architettura SMoE. Questo modello, noto per la sua architettura leggera, è liberamente accessibile con licenza Apache 2.0. Nel campo dei benchmark di intelligenza artificiale, Mistral ha dimostrato ottime capacità, superando il modello Llama 2 70B nella maggior parte delle valutazioni offrendo un’inferenza sei volte più veloce. Si distingue come il modello leggero più efficiente disponibile con una licenza permissiva, eccellendo nelle valutazioni costo-prestazioni. Notabilmente, Mistral compete con o supera le prestazioni di GPT3.5 nei benchmark standard.

Le capacità di Mistral sono molteplici. Gestisce con facilità contesti estesi fino a 32.000 token. La sua competenza linguistica si estende su diverse lingue, tra cui inglese, francese, italiano, tedesco e spagnolo. Nel campo della generazione del codice, Mistral mostra una notevole forza. Inoltre, quando ottimizzato come modello di istruzioni, raggiunge un punteggio impressionante di 8,3 su MT-Bench.

Mixtral 8x7B si basa su una rete che utilizza solo un decodificatore. La sua architettura è caratterizzata da un blocco di avanzamento che seleziona otto gruppi distinti di parametri. Per ogni token a ogni livello, una rete di routing specializzata seleziona due di questi gruppi, chiamati “esperti”, per elaborare il token. Le loro uscite vengono poi combinate in modo additivo. Questa tecnica innovativa consente a Mistral di aumentare il conteggio dei parametri mantenendo il controllo sui costi e sulla latenza. In sostanza, Mistral vanta un totale di 45 miliardi di parametri, ma utilizza solo 12 miliardi per token. Di conseguenza, elabora input e genera output con la stessa efficienza e costo di un modello con solo 12 miliardi di parametri.

La formazione di Mistral viene effettuata su dati provenienti da internet, con un focus simultaneo sullo sviluppo sia degli esperti che delle reti di routing. Questo approccio sottostà alle sue capacità avanzate ed efficienza, posizionando Mistral all’avanguardia dei modelli aperti con architetture sparse nel panorama dell’IA.

Insieme alla versione di base, Mistral ha rilasciato Mixtral 8x7B Instruct, un modello di istruzioni ottimizzato con il fine-tuning supervisionato e l’ottimizzazione diretta delle preferenze (DPO).

Le Prestazioni

Mistral ha valutato Mistral 8x7B su diversi benchmark, nei quali il modello si è paragonato alle prestazioni di modelli molto più grandi come LLaMA 2 70B e GPT 3.5.

Crediti immagine: Mistral AI

I seguenti grafici mostrano la relazione tra le prestazioni e il budget inferenziale in diverse capacità chiave:

Crediti immagine: Mistral AI

Utilizzando Mixtral 8x7B

Mixtral 8x7B è stato appena rilasciato e, di conseguenza, non è stato ancora prodotto in molte piattaforme. Il modo principale per utilizzare il modello è tramite la nuova piattaforma Mistral:

from mistralai.client import MistralClientfrom mistralai.models.chat_completion import ChatMessageapi_key = os.environ["MISTRAL_API_KEY"]model = "mistral-small"client = MistralClient(api_key=api_key)messages = [    ChatMessage(role="user", content="Qual è il miglior formaggio francese?")]# Nessuno streamingchat_response = client.chat(    model=model,    messages=messages,)# Con lo streamingfor chunk in client.chat_stream(model=model, messages=messages):    print(chunk)

Inoltre, possiamo utilizzare il modello tramite Hugging Face:

from transformers import AutoModelForCausalLM, AutoTokenizermodel_id = "mistralai/Mixtral-8x7B-v0.1"tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(model_id)text = "Ciao, mi chiamo"inputs = tokenizer(text, return_tensors="pt")outputs = model.generate(**inputs, max_new_tokens=20)print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Mixtral 8x7B rappresenta un interessante passo avanti nell’evoluzione dei LLM open-source. Speriamo che nelle prossime settimane vengano svelati ulteriori dettagli sul modello.