I ricercatori di Microsoft presentano LoRAShear un nuovo approccio efficiente di intelligenza artificiale per tagliare strutturalmente LLMs e recuperare la conoscenza.

I ricercatori di Microsoft svelano LoRAShear un nuovo metodo avanzato di intelligenza artificiale per tagliare ed esplorare con efficacia LLMs e recuperare preziose informazioni.

LLMs possono elaborare grandi quantità di dati testuali e recuperare informazioni rilevanti rapidamente. Questo ha applicazioni nei motori di ricerca, nei sistemi di risposta alle domande e nell’analisi dei dati, aiutando gli utenti a trovare facilmente le informazioni di cui hanno bisogno. LLMs possono integrare la conoscenza umana fornendo un accesso immediato a vasti database di informazioni, che possono essere preziosi per ricercatori, professionisti e persone in cerca di conoscenze in vari settori.

Il recupero di conoscenza è una delle attività più importanti nei LLM. Un modo comune per recuperare conoscenza nei LLM è tramite il fine-tuning. Gli sviluppatori possono prendere un modello pre-addestrato e modificarlo su un set di dati specifico per aggiornare la sua conoscenza. Se si desidera che il modello sia esperto di eventi recenti o di domini specializzati, il fine-tuning con dati pertinenti può essere d’aiuto. I ricercatori e le organizzazioni che gestiscono LLM li aggiornano periodicamente con nuove informazioni, il che comporta il ri-addestramento del modello con un set di dati più recente o una procedura specifica di aggiornamento della conoscenza.

I ricercatori di Microsoft hanno sviluppato un nuovo ed efficiente approccio per potare LLMs e recuperare conoscenza in modo strutturale. Lo chiamano “LoRAShear”. L’ottenimento di una struttura si riferisce alla rimozione o riduzione di determinati componenti o elementi dell’architettura di una rete neurale per renderla più efficiente, compatta e computazionalmente meno impegnativa. Propongono Lora Half-Space Projected Gradient (LHSPG) per consentire una potatura strutturale progressiva con un trasferimento di conoscenza implicito tramite moduli LoRA e una fase dinamica di recupero della conoscenza per eseguire il fine-tuning multi-stadio nel modo sia del pre-training che dell’istruttoria del fine-tuning.

I ricercatori affermano che LoRAShear può essere applicato a LLMs generali mediante l’analisi del grafo di dipendenza su LLMs con moduli LoRA. Il loro approccio definisce in modo univoco un algoritmo per creare grafi di dipendenza per il LLM originale e i moduli LoRA. Introducono inoltre un algoritmo di ottimizzazione della sparagmosità strutturata che utilizza informazioni dai moduli LoRA per aggiornare i pesi, migliorando la conservazione della conoscenza.

LoRAPrune integra LoRA con la potatura strutturata iterativa, ottenendo un fine-tuning efficiente in termini di parametri e una diretta accelerazione hardware. Affermano che questo approccio è efficiente in termini di memoria in quanto si basa esclusivamente sui pesi e sui gradienti di LoRA come criteri di potatura. Dato un LLM, costruiscono un grafo di traccia e stabiliscono gruppi di nodi da comprimere. Partizionano le variabili addestrabili in strutture di rimozione minima, riformano il gruppo di variabili addestrabili e lo restituiscono al LLM.

Dimostrano la sua efficacia implementandola su un LLAMAv1 open-source. Trovano che un LLAMAv1 potato del 20% perde l’1% delle prestazioni, mentre il modello potato al 50% conserva l’82% delle prestazioni sui benchmark di valutazione. Tuttavia, l’applicazione a LLMs sta affrontando sfide significative a causa dell’enorme richiesta di risorse computazionali e dei dataset di addestramento non disponibili per il pretraining e il fine-tuning istruito, e il lavoro futuro sarà quello di risolverle.