Incontra ChatGLM2-6B la versione di seconda generazione del modello di chat open-source bilingue (cinese-inglese) ChatGLM-6B.

Incontra ChatGLM2-6B, la versione di seconda generazione di ChatGLM-6B, un modello di chat open-source bilingue (cinese-inglese).

Dall’introduzione della rivoluzionaria ChatGPT di OpenAI, che ha infranto record ottenendo i primi 100 milioni di utenti più velocemente per un prodotto, sono stati compiuti notevoli progressi nel campo degli agenti di conversazione in linguaggio naturale. I ricercatori stanno esplorando attivamente varie tecniche e strategie per migliorare le capacità dei modelli di chatbot, consentendo loro di creare interazioni più naturali e coinvolgenti con gli utenti. Di conseguenza, sono state rilasciate sul mercato diverse alternative open source e leggere a ChatGPT, una delle quali è la serie di modelli ChatGLM sviluppata dai ricercatori dell’Università di Tsinghua, in Cina. Questa serie, basata sul framework General Language Model (GLM), si differenzia dal gruppo di modelli LLM Generative Pre-trained Transformer (GPT), più comunemente utilizzati. La serie include diversi modelli bilingue addestrati in cinese e inglese, di cui il più conosciuto è ChatGLM-6B, che ha 6,2 miliardi di parametri. Il modello è stato pre-addestrato su oltre 1 trilione di token in inglese e cinese ed è stato ulteriormente ottimizzato per le domande-risposte cinesi, la sintesi e le conversazioni utilizzando tecniche come il reinforcement learning con il feedback umano.

Un’altra caratteristica eccezionale di ChatGLM-6B è che può essere implementato localmente e richiede pochissime risorse grazie alle sue tecniche di quantizzazione. Il modello può essere implementato anche su schede grafiche di grado consumatore. È diventato eccezionalmente popolare, soprattutto in Cina, con oltre 2 milioni di download in tutto il mondo, diventando uno dei modelli open source su larga scala più influenti. A seguito della sua ampia adozione, i ricercatori dell’Università di Tsinghua hanno rilasciato ChatGLM2-6B, la versione di seconda generazione del modello di chat bilingue. ChatGLM2-6B include tutti i punti di forza del modello di prima generazione, nonché diverse nuove funzionalità che sono state aggiunte, come miglioramenti delle prestazioni, supporto per contesti più lunghi e inferenza più efficiente. Inoltre, il team di ricerca ha esteso l’uso dei pesi del modello oltre scopi accademici (come fatto in precedenza), rendendoli disponibili per l’uso commerciale.

Come punto di partenza, i ricercatori hanno migliorato il modello di base di ChatGLM2-6B rispetto alla versione di prima generazione. ChatGLM2-6B utilizza la funzione obiettivo ibrida di GLM ed è stato pre-addestrato con oltre 1,4 trilioni di token in inglese e cinese. I ricercatori hanno valutato le prestazioni del loro modello rispetto ad altri modelli competitivi di dimensioni approssimativamente simili presenti sul mercato. È emerso che ChatGLM2-6B ottiene miglioramenti significativi delle prestazioni su vari dataset come MMLU, CEval, BBH, ecc. Un altro aggiornamento impressionante dimostrato da ChatGLM2-6B è il supporto per contesti più lunghi, da 2K nella versione precedente a 32K. L’algoritmo FlashAttention è stato fondamentale in questo, accelerando l’attenzione e riducendo il consumo di memoria anche per sequenze più lunghe per il layer di attenzione. Inoltre, il modello è stato addestrato con una lunghezza di contesto di 8K durante l’allineamento del dialogo per offrire agli utenti una maggiore profondità conversazionale. ChatGLM2-6B utilizza anche la tecnica Multi-Query Attention, raggiungendo con successo un minore utilizzo della memoria della GPU della cache KV e un aumento della velocità di inferenza, circa il 42%, rispetto alla prima generazione.

I ricercatori dell’Università di Tsinghua hanno reso open source ChatGLM2-6B nella speranza di incoraggiare sviluppatori e ricercatori di tutto il mondo a promuovere la crescita e l’innovazione degli LLM e sviluppare diverse applicazioni utili basate sul modello. Tuttavia, i ricercatori sottolineano anche il fatto che, data la scala più piccola del modello, le sue decisioni possono spesso essere influenzate dalla casualità e quindi le sue uscite devono essere attentamente verificate per l’accuratezza. Per quanto riguarda il lavoro futuro, il team ha pensato un passo avanti e ha iniziato a lavorare sulla terza versione del modello, ChatGLM3.