Mistral AI presenta Mixtral 8x7B un potente modello sparso di miscela di esperti.

Mistral AI presenta Mixtral 8x7B una potente combinazione di esperti in un unico modello sparsa

In un’azione mirata ad avanzare nell’intelligenza artificiale, Mistral AI, un pioniere nella fornitura di modelli aperti all’avanguardia, ha svelato Mixtral 8x7B. Questo modello SMoE (Sparse Mixture-of-Experts) di alta qualità e con pesi aperti segna un significativo salto nel campo. Allontanandosi dalle architetture e paradigmi di addestramento convenzionali, Mistral AI mira a valorizzare la comunità di sviluppatori con modelli originali, promuovendo l’innovazione e diverse applicazioni.

Panoramica di Mixtral 8x7B

Mixtral 8x7B emerge come un modello solo-decoder, sfruttando una rete di experti a sparse mixture-of-experts. Con un insieme di 8 gruppi di parametri distinti, il blocco di feedforward seleziona dinamicamente due experti ad ogni livello per elaborare i token, combinando in modo additivo le loro uscite. Questo approccio innovativo aumenta il numero di parametri del modello a 46,7B mantenendo un controllo sui costi e sulla latenza, operando alla velocità ed efficienza dei costi di un modello da 12,9B.

Pushing the Frontier con Architetture Sparse

Mistral AI è pioniere dell’utilizzo di architetture sparse con Mixtral, dimostrando un impegno nel superare i limiti dei modelli aperti. La rete di routing in Mixtral elabora efficientemente i dati di input, selezionando gruppi specifici di parametri per ogni token. Questo utilizzo strategico dei parametri migliora le prestazioni senza compromettere la velocità o il costo, rendendo Mixtral un concorrente formidabile nel panorama dell’IA.

Metriche di Performance

Mixtral viene messo alla prova confrontandolo con i modelli Llama 2 e il modello base GPT3.5. I risultati mostrano la bravura di Mixtral, superando Llama 2 70B e eguagliando o superando GPT3.5 su vari benchmark. Il grafico di scambio tra qualità e budget di inference illustra l’efficienza di Mixtral 8x7B, posizionandolo tra i modelli altamente efficienti rispetto ai corrispondenti Llama 2.

Allucinazione, Preconcetti e Padronanza del Linguaggio

Un’analisi critica delle prestazioni di Mixtral rivela i suoi punti di forza nei benchmark TruthfulQA, BBQ e BOLD. In confronto a Llama 2, Mixtral mostra una maggiore veridicità e un ridotto pregiudizio. Il modello dimostra competenza in più lingue, tra cui francese, tedesco, spagnolo, italiano e inglese.

Leggi anche: Da GPT a Mistral-7B: Il Passo Avanti Emozionante nelle Conversazioni sull’IA

La Nostra Opinione

Mistral AI con Mixtral 8x7B non solo stabilisce un nuovo standard per i modelli aperti, ma affronta anche considerazioni etiche. Identificando attivamente e misurando allucinazioni, pregiudizi e sentimenti, Mistral AI dimostra un impegno nel perfezionare il modello tramite un miglioramento fine-tuning e una modellizzazione delle preferenze. Il rilascio di Mixtral 8x7B Instruct enfatizza ulteriormente la dedizione di Mistral AI nell’offrire un modello open-source versatile, ad alte prestazioni ed etico.