MPT-30B MosaicML supera GPT-3 con un nuovo LLM per spingere i limiti dell’NLP

MPT-30B MosaicML supera GPT-3 con un nuovo LLM per l'NLP avanzato.

MosaicML è un’azienda di intelligenza artificiale generativa che fornisce soluzioni di implementazione e scalabilità dell’IA. Il loro ultimo grande modello linguistico (LLM) MPT-30B sta facendo notizia nella comunità dell’IA.

Il percorso di MosaicML con LLM è iniziato con il rilascio di MPT-7B (Mosaic Pretrained Transformer) nel maggio 2023, che è arrivato con tre varianti:

  1. MPT-7B-StoryWriter-65k+ (per la generazione di storie di lunga durata)
  2. MPT-7B-Instruct (per il seguimento di istruzioni di breve durata)
  3. MPT-7B-Chat (per la generazione di dialoghi)

I modelli hanno ottenuto un enorme successo nella comunità di machine learning grazie alla loro natura open-source, all’usabilità commerciale e alla straordinaria capacità di gestire finestre di contesto estese.

In particolare, il modello era allo stesso livello e, in alcuni casi, ha superato gli altri modelli comparabili (LLaMA-7B, StableLM 7B, ecc). Entro giugno, la serie MPT-7B era stata scaricata oltre 3 milioni di volte. Il 22 giugno, MosaicML ha rilasciato MPT-30B, che ha alzato ulteriormente l’asticella per i modelli di base open-source.

MPT-30B: Un potente LLM che supera GPT-3

MPT-30B è un LLM basato su decoder open-source e con licenza commerciale che è più potente di GPT-3-175B con solo il 17% dei parametri di GPT-3, cioè 30B. Supera GPT-3 in diverse attività. Ecco un confronto tra MPT-30B e GPT-3.

Fonte

MPT-30B si basa sul modello precedente MPT-7B. È efficiente dal punto di vista computazionale rispetto a modelli di dimensioni simili. Ad esempio, LLaMA-30B ha utilizzato circa 1,44 volte più budget di FLOPs rispetto a MPT-30B, mentre Falcon-40B aveva un budget di FLOPs 1,27 volte superiore a MPT-30B. Ecco un’illustrazione del miglioramento di MPT-30B su varie attività rispetto al suo predecessore.

Fonte

Alcune caratteristiche speciali di MPT-30B sono le seguenti:

Finestra di contesto di 8.000 token

La finestra di contesto nei LLM si riferisce alla gamma di token che il modello può considerare prima di generare l’output. MPT-30B aveva una finestra di contesto di 8.000 token durante il training. È stato addestrato per la prima volta su 1T token utilizzando sequenze di 2.000 token e poi su ulteriori 50B token di sequenze di 8.000 token (circa 6.000 parole).

Supporto ALiBi

Per spiegare questa caratteristica, consideriamo una domanda:

Come può MPT-30B comprendere e fare previsioni per sequenze più lunghe rispetto a quelle su cui è stato addestrato?

MPT-30B utilizza una tecnica chiamata Attention with Linear Biases (ALiBi) per comprendere sequenze più lunghe ed estendere la finestra di contesto oltre gli 8.000 token durante la fine-tuning o l’inferenza.

Al posto del calcolo degli embedding posizionali in cui assegniamo un vettore a ogni parola nella sequenza, ALiBi calcola punteggi di attenzione tra token chiave e di query. Quando i token chiave e di query sono vicini, la penalità è bassa, altrimenti è alta. Di conseguenza, l’architettura del transformer sottostante può estrapolare input di lunga durata.

Efficienza nell’inferenza e nelle performance di addestramento tramite FlashAttention

L’attenzione, cioè il focalizzarsi sulle parti rilevanti della sequenza di input, è un componente critico dei transformer, ma può essere lento e intensivo in termini di memoria, specialmente durante l’elaborazione di sequenze di testo lunghe.

FlashAttention è un approccio proposto dai ricercatori dell’Università di Cornell che affronta questo problema per MPT-30B. Utilizzando una tecnica chiamata “tiling”, FlashAttention riduce il numero di volte in cui il modello deve leggere o scrivere in memoria, velocizzando l’elaborazione. Pertanto, il modello utilizza la tecnica FlashAttention all’avanguardia e la libreria di ottimizzazione FasterTransformer di NVIDIA per un addestramento e un’inferenza efficienti.

Facilità di formazione e distribuzione

I programmatori possono formare MPT-30B da zero o utilizzare i checkpoint di MosaicML per distribuzioni più veloci. Inoltre, può essere affinato per casi d’uso specifici del dominio su un particolare set di dati.

La dimensione del modello è stata scelta per consentire una distribuzione senza sforzo su una singola GPU, in particolare 1xA100-80GB in precisione a 16 bit o 1xA100-40GB in precisione a 8 bit. Ciò significa che il modello è stato progettato per adattarsi alle limitazioni di memoria di queste GPU.

Capacità di programmazione

MPT-30B offre anche eccezionali capacità di programmazione. HumanEval è un set di dati rilasciato da OpenAI che contiene 164 problemi di programmazione realizzati a mano. Sul set di dati HumanEval, il modello supera i modelli LLM specifici realizzati appositamente, come la serie StarCoder.

Fonte

Varianti affinate: MPT-30B-Instruct & MPT-30B-Chat

MPT-30B-Instruct

LLM viene utilizzato principalmente per istruzioni come risposta a domande, riassunti di testo, traduzione di lingua, ecc. MPT-30B-Instruct è una variante di MPT-30B commercialmente utilizzabile (mantiene una licenza commerciale CC-By-SA-3.0) affinata appositamente per compiti di seguire le istruzioni. Per l’affinamento, sono stati utilizzati i seguenti set di dati:

  1. FLAN
  2. P3
  3. Alpaca
  4. Dolly-15k

Il set di dati Dolly è stato ulteriormente ampliato con il set di dati Helpful and Harmless di Anthropic per l’affinamento delle istruzioni. Inoltre, sono stati utilizzati una serie diversificata di set di dati per l’aumento dei dati, che sono i seguenti:

  1. CompetitionMath
  2. GradeSchoolMath
  3. DialogSum
  4. DuoRC
  5. QASPER
  6. QuALITY
  7. SummScreen
  8. Spider

MPT-30B-Chat

MPT-30B-Chat è una versione affinata di MPT-30B per la generazione di dialoghi. È un artefatto di ricerca rilasciato con licenza CC-By-NC-SA-4.0, consentendo solo un uso non commerciale. Il modello è stato affinato utilizzando vari set di dati linguistici, tra cui:

  1. Airoboros/GPT4-1.2
  2. Baize
  3. Camel
  4. GPTeacher
  5. Guanaco
  6. LongCoversations
  7. ShareGPT
  8. WizardLM

LLMs rappresentano una grande fetta del mercato dell’IA generativa multimiliardaria, che ha registrato una crescita incredibile dopo la rivoluzione di ChatGPT dello scorso anno. La famiglia MPT è una parte fondamentale di questa rivoluzione. Nel prossimo futuro, possiamo aspettarci di vedere modelli open-source disponibili commercialmente che sono molto più potenti ed efficienti della famiglia MPT.

Per le ultime notizie sull’IA, visita unite.ai.