Mistral AI Impostazione di nuovi punti di riferimento oltre Llama2 nello spazio open-source

L'impostazione di nuovi punti di riferimento oltre Llama2 nello spazio open-source con Mistral AI

I modelli di linguaggio di grandi dimensioni (LLM) hanno recentemente preso il centro del palcoscenico, grazie a interpreti eccezionali come ChatGPT. Quando Meta ha introdotto i loro modelli Llama, ha suscitato un rinnovato interesse per i LLM open source. L’obiettivo? Creare LLM open source accessibili e di qualità pari ai modelli di alto livello come GPT-4, ma senza il fastidioso prezzo o complicazioni.

Questa combinazione di accessibilità ed efficienza non solo ha aperto nuove opportunità per ricercatori e sviluppatori, ma ha anche gettato le basi per una nuova era di progressi tecnologici nel trattamento del linguaggio naturale.

Recentemente, le startup di intelligenza artificiale generativa hanno ottenuto notevoli finanziamenti. Insieme, sono riusciti a raccogliere 20 milioni di dollari, con l’obiettivo di dare forma all’IA open source. Anthropic ha raccolto impressionanti 450 milioni di dollari e Cohere, in collaborazione con Google Cloud, ha ottenuto 270 milioni di dollari a giugno di quest’anno.

Introduzione a Mistral 7B: Dimensioni e Disponibilità

mistral AI

Mistral AI, con sede a Parigi e fondata da alumni di Google’s DeepMind e Meta, ha annunciato il suo primo grande modello di linguaggio: Mistral 7B. Questo modello può essere facilmente scaricato da chiunque su GitHub e anche tramite un torrent di 13,4 gigabyte.

Questa startup è riuscita a ottenere finanziamenti record ancora prima di avere un prodotto sul mercato. Il primo modello di Mistral AI con 7 miliardi di parametri supera le prestazioni di Llama 2 13B in tutti i test e supera Llama 1 34B in molti aspetti.

Rispetto ad altri modelli come Llama 2, Mistral 7B offre capacità simili o migliori con meno oneri computazionali. Mentre i modelli fondamentali come GPT-4 possono fare di più, hanno un costo più elevato e non sono altrettanto user-friendly in quanto sono principalmente accessibili tramite API.

Per quanto riguarda i compiti di programmazione, Mistral 7B strizza l’occhio a CodeLlama 7B. Inoltre, è abbastanza compatto con i suoi 13,4 GB da poter girare su macchine standard.

Inoltre, Mistral 7B Instruct, ottimizzato appositamente per dataset di istruzione su Hugging Face, ha dimostrato ottime prestazioni. Supera gli altri modelli 7B su MT-Bench e si pone al pari con i modelli di chat 13B.

hugging-face mistral ai example

Esempio Hugging Face Mistral 7B

Benchmark delle Prestazioni

In un’analisi dettagliata delle prestazioni, Mistral 7B è stato confrontato con i modelli della famiglia Llama 2. I risultati sono stati chiari: Mistral 7B ha superato nettamente Llama 2 13B in tutti i benchmark. In effetti, ha raggiunto le prestazioni di Llama 34B, con particolare rilievo nei benchmark di codice e ragionamento.

I benchmark sono stati organizzati in diverse categorie, come Ragionamento di Buon Senso, Conoscenza del Mondo, Comprensione della Lettura, Matematica e Codice, tra gli altri. Un’osservazione particolarmente degna di nota è la metrica di costo-prestazioni di Mistral 7B, denominata “dimensioni del modello equivalente”. In aree come ragionamento e comprensione, Mistral 7B ha dimostrato prestazioni simili a un modello Llama 2 tre volte più grande, segnalando un potenziale risparmio di memoria e un aumento della capacità. Tuttavia, nei benchmark di conoscenza, Mistral 7B si allinea strettamente con Llama 2 13B, ciò è probabilmente dovuto ai suoi limiti di parametro che influiscono sulla compressione della conoscenza.

Cosa rende davvero il modello Mistral 7B migliore rispetto alla maggior parte degli altri modelli di lingua?

Semplificazione dei meccanismi di attenzione

Mentre le sottigliezze dei meccanismi di attenzione sono tecniche, l’idea di base è relativamente semplice. Immagina di leggere un libro e evidenziare le frasi importanti; questo è analogo a come i meccanismi di attenzione “evidenziano” o attribuiscono importanza a punti dati specifici in una sequenza.

Nel contesto dei modelli linguistici, questi meccanismi consentono al modello di concentrarsi sulle parti più rilevanti dei dati di input, garantendo che l’output sia coerente e accurato dal punto di vista contestuale.

Nelle trasformazioni standard, i punteggi di attenzione vengono calcolati con la formula:

Formula di attenzione delle trasformazioni

Formula di attenzione delle trasformazioni

La formula per questi punteggi prevede un passaggio cruciale: la moltiplicazione matriciale di Q e K. La sfida qui è che all’aumentare della lunghezza della sequenza, entrambe le matrici aumentano di conseguenza, portando a un processo computazionalmente intensivo. Questa preoccupazione per la scalabilità è una delle principali ragioni per cui le trasformazioni standard possono essere lente, specialmente quando si tratta di sequenze lunghe.

trasformatoreI meccanismi di attenzione aiutano i modelli a concentrarsi su parti specifiche dei dati di input. Tipicamente, questi meccanismi utilizzano “head” per gestire questa attenzione. Più head hai, più specifica è l’attenzione, ma diventa anche più complessa e più lenta. Approfondisci le trasformazioni e i meccanismi di attenzione qui.

L’attenzione multi-query (MQA) velocizza le cose utilizzando un set di head di “key-value” ma a volte sacrifica la qualità. Ora, potresti chiederti, perché non combinare la velocità di MQA con la qualità dell’attenzione multi-head? Ecco dove entra in gioco l’attenzione grouped-query (GQA).

Attenzione grouped-query (GQA)

Attenzione grouped-query

Attenzione grouped-query

GQA è una soluzione di compromesso. Invece di usare un solo o più head di “key-value”, li raggruppa. In questo modo, GQA ottiene prestazioni simili all’attenzione multi-head dettagliata ma con la velocità di MQA. Per modelli come Mistral, ciò significa prestazioni efficienti senza compromettere troppo la qualità.

Attenzione sliding window (SWA)

trasformatori longformer sliding window

La sliding window è un altro metodo utilizzato nel trattamento delle sequenze di attenzione. Questo metodo utilizza una finestra di attenzione di dimensioni fisse intorno a ciascun token nella sequenza. Con più livelli di impilamento di questa attenzione a finestra, i livelli superiori acquisiscono gradualmente una prospettiva più ampia, comprendendo informazioni dall’intero input. Questo meccanismo è analogo ai campi recettivi osservati nelle reti neurali convoluzionali (CNN).

D’altro canto, la “dilated sliding window attention” del modello Longformer, concettualmente simile al metodo sliding window, calcola solo poche diagonali della matrice QKT. Questo cambiamento comporta un aumento dell’uso della memoria in modo lineare anziché quadratico, rendendolo un metodo più efficiente per sequenze più lunghe.

La trasparenza di Mistral AI vs. preoccupazioni per la sicurezza nella decentralizzazione

Nel loro annuncio, Mistral AI ha sottolineato anche la trasparenza con la dichiarazione: “Nessun trucco, nessun dato proprietario”. Ma allo stesso tempo, il loro unico modello disponibile al momento, “Mistral-7B-v0.1”, è un modello di base preallenato che può generare una risposta a qualsiasi domanda senza moderazione, il che solleva potenziali preoccupazioni per la sicurezza. Mentre modelli come GPT e Llama hanno meccanismi per discernere quando rispondere, la natura completamente decentralizzata di Mistral potrebbe essere sfruttata da attori malintenzionati.

Tuttavia, la decentralizzazione dei grandi modelli di linguaggio ha i suoi meriti. Mentre alcuni potrebbero abusarne, le persone possono sfruttarne il potere per il bene della società e rendere l’intelligenza accessibile a tutti.

Deployment Flexibility

Uno dei punti salienti è che Mistral 7B è disponibile sotto la licenza Apache 2.0. Ciò significa che non ci sono vere barriere all’uso, che tu lo stia utilizzando per scopi personali, in un’azienda enorme o persino in un ente governativo. Hai solo bisogno del sistema giusto per eseguirlo, o potresti dover investire nelle risorse cloud.

Mentre esistono altre licenze come la più semplice Licenza MIT e la collaborativa CC BY-SA-4.0, che richiede crediti e licenze simili per i derivati, Apache 2.0 fornisce una solida base per progetti su larga scala.

Considerazioni finali

La crescita di modelli di linguaggio open-source come Mistral 7B segna una svolta fondamentale nell’industria dell’IA, rendendo modelli linguistici di alta qualità accessibili a un pubblico più ampio. Approcci innovativi di Mistral AI, come l’attenzione a gruppi di query e l’attenzione a finestre scorrevoli, promettono un’efficienza performante senza compromettere la qualità.

Anche se la natura decentralizzata di Mistral pone certe sfide, la sua flessibilità e la licenza open-source sottolineano il potenziale di democratizzazione dell’IA. Man mano che il panorama evolve, l’attenzione sarà inevitabilmente rivolta al bilanciamento del potere di questi modelli con considerazioni etiche e meccanismi di sicurezza.

Per Mistral, cosa c’è in futuro? Il modello 7B è stato solo l’inizio. Il team ha come obiettivo di lanciare presto modelli ancora più grandi. Se questi nuovi modelli rispecchiano le prestazioni del 7B, Mistral potrebbe rapidamente emergere come uno dei principali attori del settore, tutto nel loro primo anno.