Incontra LoftQ LoRA-Fine-Tuning-Aware Quantization per grandi modelli di linguaggio

Introduzione a LoftQ LoRA Fine-Tuning-Aware Quantization per i grandi modelli di linguaggio

L’introduzione dei Modelli di Linguaggio Pre-addestrati (PLM) ha significato una trasformazione rivoluzionaria nel campo dell’Elaborazione del Linguaggio Naturale. Hanno dimostrato una straordinaria competenza nell’eseguire una vasta gamma di compiti linguistici, compresa la Comprensione del Linguaggio Naturale (NLU) e la Generazione del Linguaggio Naturale (NLG). Questi modelli incorporano tipicamente milioni o addirittura miliardi di parametri, il che comporta notevoli requisiti computazionali e di memoria. Tuttavia, le considerevoli esigenze computazionali e di memoria di questi modelli presentano significative sfide, come riconosciuto dalla comunità di ricerca.

In questo articolo, gli autori introducono un nuovo framework di quantizzazione noto come Quantizzazione consapevole dell’aggiustamento di LoRA-Fine-Tuning (LoftQ). Questo framework è appositamente progettato per modelli pre-addestrati che richiedono la quantizzazione e il fine-tuning di LoRA. Il framework combina attivamente l’approssimazione a basso rango, lavorando in combinazione con la quantizzazione per approssimare congiuntamente i pesi pre-addestrati ad alta precisione originali.

L’immagine mostrata sopra illustra le prestazioni di QLoRA con diversi bit. Sinistra: inizializzazione di QLoRA di LLAMA-2-13b su WikiText-2. Destra: Applicazione di QLoRA a LLAMA-2-13b sul compito di modellazione del linguaggio WikiText-2. Un tasso di perplessità più basso indica una migliore prestazione.

Metodi di quantizzazione. Applichiamo due metodi di quantizzazione per dimostrare che LoftQ è compatibile con diverse funzioni di quantizzazione:

• La quantizzazione uniforme è un classico metodo di quantizzazione. Divide in modo uniforme un intervallo continuo in 2N categorie e memorizza un valore massimo assoluto locale per la dequantizzazione.

• NF4 e la sua variante a 2 bit NF2 sono metodi di quantizzazione utilizzati in QLoRA. Assumono che i valori ad alta precisione siano estratti da una distribuzione gaussiana e mappano questi valori in slot discreti che hanno probabilità uguali.

Eseguiamo una quantizzazione a 2 bit e 4 bit su tutti i modelli, raggiungendo rapporti di compressione del 25-30% e del 15-20% rispettivamente ai livelli di 4 bit e 2 bit. Tutti gli esperimenti sono stati condotti su GPU NVIDIA A100.

L’analisi del loro framework di quantizzazione è stata effettuata attraverso ampi esperimenti su vari compiti secondari, tra cui NLU, domande e risposte, riepilogo e NLG. I risultati di questi esperimenti dimostrano che LoftQ supera costantemente QLoRA a tutti i livelli di precisione. Ad esempio, con una quantizzazione a 4 bit, ottengono un miglioramento di 1,1 e 0,8 in Rouge-1 per XSum e CNN/DailyMail, rispettivamente. Con il continuo avanzamento del campo del NLP, ci si aspetta che ulteriori innovazioni e ottimizzazioni contribuiscano a colmare il divario tra il potenziale immenso dei PLM e la loro implementazione pratica, beneficiando una vasta gamma di applicazioni e utenti.