Incontra LQ-LoRA Una Variante di LoRA che Consente la Decomposizione Matriciale Quantizzata a Basso Rango per un Raffinamento Efficient del Modello Linguistico.

Incontra LQ-LoRA una Variante di LoRA per una Decomposizione Matriciale Quantizzata a Basso Rango e un Raffinamento Efficiente del Modello Linguistico.

Nell’era in rapido avanzamento dell’Intelligenza Artificiale, l’introduzione dei Large Language Models (LLM) ha trasformato il modo in cui le macchine e gli esseri umani interagiscono tra loro. Negli ultimi mesi si è assistito a un aumento esponenziale del numero di LLM sviluppati, con incredibili capacità e algoritmi super avanzati. Modelli come GPT 3.5, GPT 4, LLaMa, PaLM, ecc., hanno dimostrato straordinarie capacità di imitazione dell’essere umano nell’ambito della comprensione del linguaggio naturale (NLU), dell’elaborazione, della traduzione, della sintesi e persino della generazione di contenuti.

Questi LLM vengono addestrati su enormi quantità di dati. Tuttavia, sorge una sfida quando questi modelli devono adattarsi a nuovi dataset. I ricercatori di solito si trovano di fronte a problemi quando devono adattare questi massicci LLM a nuovi dataset, poiché la piena messa a punto richiede molteplici risorse e requisiti di memoria. Al fine di affrontare il problema dell’efficienza di memoria nella messa a punto dei LLM, di recente, un team di ricercatori ha presentato l’idea di metodi di messa a punto efficienti in termini di parametri.

Apprendendo una piccola estensione messa a punto rispetto al modello preaddestrato originale, queste tecniche possono ridurre la quantità di memoria necessaria per la messa a punto. Low-Rank Adaptation (LoRA), che è una strategia ben accolta per un’adattamento efficace dei LLM, comporta la ri-parametrizzazione della matrice dei pesi del modello preaddestrato e la messa a punto solo di due dei suoi componenti, ovvero L1 e L2. Gli altri componenti rimangono invariati.

I ricercatori hanno migliorato l’efficienza di memoria di LoRA applicandolo a un modello preaddestrato quantizzato. Al fine di conservare la memoria, la quantizzazione riduce la precisione dei parametri del modello e, se la quantizzazione è significativa, l’inizializzazione a zero potrebbe non essere ottimale. Per superare l’errore di quantizzazione, il team ha introdotto un’alternativa di LoRA chiamata LQ-LoRA.

LQ-LoRA scompone la matrice dei pesi in un componente quantizzato, Q, e un componente a basso rango, L1L2, utilizzando una tecnica iterativa influenzata dall’Analisi delle Componenti Principali (PCA). In LQ-LoRA, L1 e L2 vengono affinati durante l’adattamento e vengono catturate le sotto-spazi ad alta varianza della matrice dei pesi iniziale.

Il team ha condiviso che questo lavoro utilizza la programmazione lineare intera per trovare un metodo di quantizzazione mista per risolvere il problema dell’applicazione della stessa configurazione di quantizzazione a tutti i layer. Data una velocità di bit desiderata complessiva, questa tecnica permette di assegnare varie configurazioni, inclusi i bit e la dimensione del blocco, a ciascuna matrice.

Il team ha modificato i modelli RoBERTa e LLaMA-2 di diverse dimensioni, 7B e 70B, utilizzando LQ-LoRA. I risultati hanno dimostrato che LQ-LoRA funziona meglio rispetto a GPTQ-LoRA e alle baselines QLoRA solide. La capacità di addestrare un modello LLaMA-2 a 2,5 bit sul benchmark OpenAssistant, che è competitivo con un modello messo a punto utilizzando QLoRA a 4 bit, ha mostrato che l’approccio suggerito consente una quantizzazione più aggressiva.

LQ-LoRA ha mostrato anche ottime performance nella compressione del modello dopo essere stato adattato a un modello di linguaggio per la calibrazione del dataset. Nonostante la diminuzione dei bit, il team è stato in grado di produrre un modello LLaMA-2-70B a 2,75 bit che è competitivo con il modello originale in termini di precisione completa. Ciò indica che il metodo suggerito potrebbe essere in grado di ridurre drasticamente le esigenze di memoria dei grandi modelli di linguaggio senza sacrificare la funzionalità per attività specifiche.

In conclusione, LQ-LoRA rappresenta un punto di svolta significativo nello sviluppo dei modelli di linguaggio. Il suo metodo di adattamento efficiente in termini di memoria e le considerazioni consapevoli dei dati, insieme all’ottimizzazione dinamica dei parametri di quantizzazione, possono sicuramente portare a una svolta nel campo dell’Intelligenza Artificiale.