Incontra Wanda Un Approccio Semplice ed Efficace per la Potatura di Grandi Modelli Linguistici

Meet Wanda A Simple and Effective Approach for Pruning Large Language Models.

La popolarità e l’utilizzo dei Large Language Models (LLM) sono in continuo aumento. Con l’enorme successo nel campo dell’Intelligenza Artificiale Generativa, questi modelli stanno portando a delle enormi trasformazioni economiche e sociali. Uno dei migliori esempi dei LLM di tendenza è il chatbot sviluppato da OpenAI, chiamato ChatGPT, che imita gli esseri umani e ha avuto milioni di utenti fin dal suo lancio. Basato sul Processamento del Linguaggio Naturale e sulla Comprensione del Linguaggio Naturale, risponde alle domande, genera contenuti unici e creativi, riassume testi lunghi, completa codici ed email, e così via.

I LLM con un enorme numero di parametri richiedono molta potenza di calcolo, per ridurre la quale sono stati fatti sforzi utilizzando metodi come la quantizzazione del modello e la potatura della rete. Mentre la quantizzazione del modello è un processo che riduce la rappresentazione a livello di bit dei parametri nei LLM, la potatura della rete, d’altra parte, cerca di ridurre le dimensioni delle reti neurali rimuovendo determinati pesi, mettendoli quindi a zero. La mancanza di attenzione sulla potatura dei LLM è principalmente dovuta alle ingenti risorse di calcolo necessarie per il ritraining, il training da zero o i processi iterativi nelle attuali approcci.

Per superare le limitazioni, ricercatori della Carnegie Mellon University, FAIR, Meta AI e Bosch Center for AI hanno proposto un metodo di potatura chiamato Wanda (potatura per Pesi E Attivazioni). Ispirandosi alla ricerca che i LLM mostrano caratteristiche emergenti di grande magnitudine, Wanda induce sparsità nei LLM preaddestrati senza la necessità di ritraining o aggiornamenti dei pesi. I pesi di minore magnitudine in Wanda vengono potati in base a come si moltiplicano con le adeguate attivazioni di input, e i pesi vengono valutati indipendentemente per ciascun output del modello perché questa potatura viene effettuata su base output per output.

Wanda funziona bene senza la necessità di essere ritrained o di aggiornare i suoi pesi, e il LLM ridotto è stato applicato all’inferenza immediatamente. Lo studio ha scoperto che una piccola frazione delle caratteristiche dello stato nascosto dei LLM presenta magnitudini insolitamente grandi, che è una caratteristica peculiare di questi modelli. Basandosi su questa scoperta, il team ha scoperto che l’aggiunta delle attivazioni di input alla metrica di potatura della magnitudine dei pesi convenzionale rende sorprendentemente accurata la valutazione dell’importanza dei pesi.

La famiglia di LLM open source più di successo, LLaMA, è stata utilizzata dal team per valutare empiricamente Wanda. I risultati hanno dimostrato che Wanda è stata in grado di identificare con successo reti sparse efficienti direttamente dai LLM preaddestrati senza la necessità di ritraining o aggiornamenti dei pesi. Ha superato la potatura della magnitudine di gran lunga, richiedendo un costo computazionale inferiore e ha anche eguagliato o superato le prestazioni di SparseGPT, un recente metodo di potatura dei LLM che funziona accuratamente su modelli di famiglia GPT massicci.

In conclusione, Wanda sembra essere un approccio promettente per affrontare le sfide della potatura dei LLM e offre una base per futuri studi in questo settore, incoraggiando ulteriori esplorazioni sulla comprensione della sparsità nei LLM. Migliorando l’efficienza e l’accessibilità dei LLM mediante tecniche di potatura, si può continuare ad avanzare nel campo del Processamento del Linguaggio Naturale e questi potenti modelli possono diventare più pratici e ampiamente applicabili.