Democratizzare l’IA l’impatto di MosaicML sul movimento open source LLM
Democratizzare l'Intelligenza Artificiale l'impatto di MosaicML sul movimento open source LLM
Come i modelli di base di alta qualità sbloccano nuove possibilità per un’intera industria…
Recentemente, abbiamo esaminato molti studi in corso sulla creazione di modelli di linguaggio open-source a dimensione larga (LLM). In tutti questi lavori, i modelli vengono creati utilizzando un framework comune con pochi componenti semplici; vedi sotto.
Sebbene questo framework abbia diversi passaggi, il primo passaggio è indubbiamente il più importante. La creazione di un modello di base più potente attraverso un’ampia e di alta qualità pre-formazione consente di ottenere risultati migliori quando il LLM viene perfezionato attraverso il fine-tuning supervisionato (SFT) e il reinforcement learning basato sul feedback umano (RLHF). Successivamente, le applicazioni derivate sono migliori grazie all’utilizzo di un modello migliorato. Il modello pre-addestrato (di base) è il punto di partenza comune per qualsiasi applicazione LLM.
Fino a poco tempo fa, i modelli di base open-source avevano prestazioni scarse rispetto alle loro controparti proprietarie o potevano essere utilizzati solo per la ricerca. Tuttavia, questo è cambiato con il rilascio di MPT-7B e MPT-30B [1, 2] da parte di MosaicML. Questi modelli di base open-source raggiungono livelli di performance impressionanti, sono gratuiti per l’uso commerciale e sono accompagnati da un’intera suite di software efficienti per l’addestramento, il fine-tuning e la valutazione dei LLM. Questi strumenti open-source consentono di esplorare una vasta gamma di casi d’uso specializzati per i LLM con costi significativamente ridotti, rendendoli una risorsa potente per i professionisti dell’IA.
LLM più veloci e lunghezze di contesto maggiori
I modelli MPT-7B/30B si basano su un’architettura tipica di un transformer solo decoder. Tuttavia, vengono apportate alcune modifiche chiave, tra cui:
- Tutorial per principianti Collegare i modelli GPT con i dati aziendali in Microsoft Azure
- Julia Magia di cui Pochi Conoscono
- Un insieme di dati di riferimento per i modelli meteo basati sull’AI
- ALiBi [6] (al posto degli embedding di posizione normali)
- Normalizzazione di bassa precisione
- Flash Attention [7]
In questa sezione, impareremo di più su ciascuno di questi componenti, il loro funzionamento e il loro impatto sui LLM. Per comprendere appieno i dettagli di questa sezione, potrebbe essere utile rivedere i seguenti concetti: