Incontra AutoGPTQ un pacchetto di quantizzazione LLMs facile da usare con API user-friendly basate sull’algoritmo GPTQ

AutoGPTQ è un pacchetto di quantizzazione LLMs con API user-friendly basate su GPTQ.

I ricercatori di Hugging Face hanno introdotto una soluzione innovativa per affrontare le sfide poste dalle esigenze di elevata risorsa di addestramento e implementazione di modelli di linguaggio di grandi dimensioni (LLM). La loro nuova libreria AutoGPTQ integrata nell’ecosistema Transformers consente agli utenti di quantizzare ed eseguire LLM utilizzando l’algoritmo GPTQ.

Nel processing del linguaggio naturale, i LLM hanno trasformato vari ambiti grazie alla loro capacità di comprendere e generare testi simili a quelli umani. Tuttavia, i requisiti computazionali per l’addestramento e l’implementazione di questi modelli hanno presentato ostacoli significativi. Per affrontare questo problema, i ricercatori hanno integrato l’algoritmo GPTQ, una tecnica di quantizzazione, nella libreria AutoGPTQ. Questo avanzamento consente agli utenti di eseguire modelli con una precisione di bit ridotta – 8, 4, 3 o persino 2 bit – mantenendo una degradazione di accuratezza trascurabile e una velocità di inferenza comparabile a quella delle basi fp16, soprattutto per piccole dimensioni di batch.

GPTQ, classificato come un metodo di quantizzazione post-training (PTQ), ottimizza il compromesso tra efficienza di memoria e velocità computazionale. Adotta uno schema di quantizzazione ibrido in cui i pesi del modello vengono quantizzati come int4, mentre le attivazioni vengono conservate come float16. I pesi vengono dequantizzati dinamicamente durante l’inferenza e il calcolo effettivo viene eseguito come float16. Questo approccio porta a un risparmio di memoria grazie alla dequantizzazione basata su kernel fusi e a potenziali accelerazioni attraverso il tempo di comunicazione dei dati ridotto.

I ricercatori hanno affrontato la sfida della compressione layer-wise in GPTQ sfruttando il framework Optimal Brain Quantization (OBQ). Hanno sviluppato ottimizzazioni che semplificano l’algoritmo di quantizzazione mantenendo l’accuratezza del modello. Rispetto ai metodi tradizionali PTQ, GPTQ ha dimostrato un miglioramento impressionante dell’efficienza di quantizzazione, riducendo il tempo richiesto per quantizzare modelli di grandi dimensioni.

L’integrazione con la libreria AutoGPTQ semplifica il processo di quantizzazione, consentendo agli utenti di sfruttare facilmente GPTQ per varie architetture di trasformatori. Con il supporto nativo nella libreria Transformers, gli utenti possono quantizzare modelli senza configurazioni complesse. In modo significativo, i modelli quantizzati mantengono la loro serializzabilità e condivisibilità su piattaforme come Hugging Face Hub, aprendo possibilità di accesso e collaborazione più ampie.

L’integrazione si estende anche alla libreria Text-Generation-Inference (TGI), consentendo il dispiegamento efficiente di modelli GPTQ in ambienti di produzione. Gli utenti possono sfruttare il batching dinamico e altre funzionalità avanzate insieme a GPTQ per un utilizzo ottimale delle risorse.

Nonostante i significativi benefici dell’integrazione di AutoGPTQ, i ricercatori riconoscono la possibilità di ulteriori miglioramenti. Sottolineano il potenziale per migliorare le implementazioni del kernel ed esplorare tecniche di quantizzazione che comprendono pesi e attivazioni. Attualmente, l’integrazione si concentra solo su architetture di decoder o encoder in LLM, limitando la sua applicabilità a determinati modelli.

In conclusione, l’integrazione della libreria AutoGPTQ in Transformers di Hugging Face affronta le sfide di addestramento e implementazione di LLM intensive di risorse. Introducendo la quantizzazione GPTQ, i ricercatori offrono una soluzione efficiente che ottimizza il consumo di memoria e la velocità di inferenza. La vasta copertura dell’integrazione e l’interfaccia user-friendly rappresentano un passo verso la democratizzazione dell’accesso a LLM quantizzati su diverse architetture GPU. Mentre questo campo continua a evolversi, gli sforzi collaborativi dei ricercatori nella comunità di apprendimento automatico promettono ulteriori progressi e innovazioni.