Democratizzare l’IA l’impatto di MosaicML sul movimento open source LLM

Democratizzare l'Intelligenza Artificiale l'impatto di MosaicML sul movimento open source LLM

Come i modelli di base di alta qualità sbloccano nuove possibilità per un’intera industria…

(Foto di Raimond Klavins su Unsplash)

Recentemente, abbiamo esaminato molti studi in corso sulla creazione di modelli di linguaggio open-source a dimensione larga (LLM). In tutti questi lavori, i modelli vengono creati utilizzando un framework comune con pochi componenti semplici; vedi sotto.

Processo a più fasi per la creazione e il perfezionamento di un LLM (da [12, 13])

Sebbene questo framework abbia diversi passaggi, il primo passaggio è indubbiamente il più importante. La creazione di un modello di base più potente attraverso un’ampia e di alta qualità pre-formazione consente di ottenere risultati migliori quando il LLM viene perfezionato attraverso il fine-tuning supervisionato (SFT) e il reinforcement learning basato sul feedback umano (RLHF). Successivamente, le applicazioni derivate sono migliori grazie all’utilizzo di un modello migliorato. Il modello pre-addestrato (di base) è il punto di partenza comune per qualsiasi applicazione LLM.

Fino a poco tempo fa, i modelli di base open-source avevano prestazioni scarse rispetto alle loro controparti proprietarie o potevano essere utilizzati solo per la ricerca. Tuttavia, questo è cambiato con il rilascio di MPT-7B e MPT-30B [1, 2] da parte di MosaicML. Questi modelli di base open-source raggiungono livelli di performance impressionanti, sono gratuiti per l’uso commerciale e sono accompagnati da un’intera suite di software efficienti per l’addestramento, il fine-tuning e la valutazione dei LLM. Questi strumenti open-source consentono di esplorare una vasta gamma di casi d’uso specializzati per i LLM con costi significativamente ridotti, rendendoli una risorsa potente per i professionisti dell’IA.

LLM più veloci e lunghezze di contesto maggiori

I modelli MPT-7B/30B si basano su un’architettura tipica di un transformer solo decoder. Tuttavia, vengono apportate alcune modifiche chiave, tra cui:

In questa sezione, impareremo di più su ciascuno di questi componenti, il loro funzionamento e il loro impatto sui LLM. Per comprendere appieno i dettagli di questa sezione, potrebbe essere utile rivedere i seguenti concetti: