Mistral AI (8x7b) rilascia il primo modello di esperti (MoE) modello opensource mai realizzato

Mistral AI (8x7b) lancia il primo modello di esperti (MoE) open source mai realizzato

Mistral continua il loro impegno verso il mondo dell’Open Source rilasciando il primo modello di 56 miliardi di token (8 modelli, 7 miliardi di token ciascuno) tramite un Torrent !!

Qualche giorno fa, abbiamo appreso che GPT4 era un modello del Model of Experts, che includeva presumibilmente 8 modelli con 220 miliardi di parametri ciascuno, rendendolo gigantesco con una dimensione effettiva di 1,76 trilioni di parametri. Per rinfrescare la memoria, ho scritto un articolo a riguardo.

Come funzionano i 8 modelli più piccoli in GPT-4?

Autore(i): Dr. Mandar Karhade, MD. PhD. Originariamente pubblicato su Towards AI. Il segreto “Model of Experts” è fuori; cominciamo…

towardsai.net

In breve, il modello di esperti o MoE funziona come un’orchestra di modelli. C’è un modello direttore che decide quale dei modelli può rispondere a una determinata domanda o a un contesto specifico. Il modello selezionato emette l’output e viene condiviso come risposta.

Ci sono altre modalità di conduzione/orchestrazione, come ottenere risposte da tutti i modelli e poi selezionare quello giusto, o pesare le risposte dei vari modelli e quindi condividere di nuovo la risposta, ecc… ma il concetto di base è comune! C’è un Meta Model che funge da direttore per selezionare risposte appropriate tra molti modelli (da qui la Mixture of Models). Questi modelli sono allenati per funzioni specifiche o aspetti del linguaggio in modo che le prestazioni complessive del modello siano nettamente superiori rispetto a un singolo modello generico.

Si tratta di una tipica strategia dell’80:20. Questi modelli esperti possono svolgere molto bene l’80% dei compiti rispetto a un grande modello, da qui le prestazioni superiori. Inoltre, ciò può ridurre efficacemente il costo computazionale poiché ogni volta coinvolgiamo solo uno dei 8 modelli.

Tornando al Mistral MoE

Mistral ha rilasciato in vero stile Mistral una versione miniatura del GPT4 che è stato allenato (utilizzando le risposte da GPT4) mantenendo la maggior parte delle funzionalità ma riducendone drasticamente la dimensione. E questo modello è disponibile per il download gratuitamente per tutti noi comuni mortali!