Distillare ciò che sappiamo

Synthesize what we know

.fav_bar { float:left; border:1px solid #a7b1b5; margin-top:10px; margin-bottom:20px; } .fav_bar span.fav_bar-label { text-align:center; padding:8px 0px 0px 0px; float:left; margin-left:-1px; border-right:1px dotted #a7b1b5; border-left:1px solid #a7b1b5; display:block; width:69px; height:24px; color:#6e7476; font-weight:bold; font-size:12px; text-transform:uppercase; font-family:Arial, Helvetica, sans-serif; } .fav_bar a, #plus-one { float:left; border-right:1px dotted #a7b1b5; display:block; width:36px; height:32px; text-indent:-9999px; } .fav_bar a.fav_de { background: url(../images/icons/de.gif) no-repeat 0 0 #fff } .fav_bar a.fav_de:hover { background: url(../images/icons/de.gif) no-repeat 0 0 #e6e9ea } .fav_bar a.fav_acm_digital { background:url(‘../images/icons/acm_digital_library.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_acm_digital:hover { background:url(‘../images/icons/acm_digital_library.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_pdf { background:url(‘../images/icons/pdf.gif’) no-repeat 0px 0px #FFF; } .fav_bar a.fav_pdf:hover { background:url(‘../images/icons/pdf.gif’) no-repeat 0px 0px #e6e9ea; } .fav_bar a.fav_more .at-icon-wrapper{ height: 33px !important ; width: 35px !important; padding: 0 !important; border-right: none !important; } .a2a_kit { line-height: 24px !important; width: unset !important; height: unset !important; padding: 0 !important; border-right: unset !important; border-left: unset !important; } .fav_bar .a2a_kit a .a2a_svg { margin-left: 7px; margin-top: 4px; padding: unset !important; }

Credit: All_Is_Magic

La dimensione e la complessità dei modelli generativi preaddestrati (GPT) odierni sono semplicemente sorprendenti. Ad esempio, il GPT-3 di OpenAI possiede circa 175 miliardi di parametri, e si ipotizza che il GPT-4 possa arrivare a 10 trilioni di parametri. a

Tutto ciò comporta enormi costi in termini di risorse cloud necessarie, inclusi cicli di calcolo e consumo di energia. Attualmente, la potenza di calcolo richiesta per addestrare modelli di intelligenza artificiale (AI) all’avanguardia aumenta di 15 volte ogni due anni. b Il costo per addestrare un grande modello GPT può arrivare a milioni di dollari. c Ritrainare un modello per adattarlo a un dispositivo come un laptop o uno smartphone può aumentare considerevolmente il costo.

Come risultato, c’è una crescente attenzione verso la riduzione delle dimensioni dei modelli GPT senza perdere attributi critici. In molti casi, i parametri originali necessari per costruire il modello non sono più necessari una volta che esiste un modello GPT completo. Quindi, attraverso una varietà di tecniche, tra cui la quantizzazione, la sparsetà, la potatura e altri metodi di distillazione, è possibile ridurre le dimensioni del modello con un impatto trascurabile sulle prestazioni.

Nel gennaio 2023, due ricercatori presso l’Istituto di Scienza e Tecnologia Austria (ISTA) hanno spinto i confini della distillazione della conoscenza e della compressione del modello verso una nuova dimensione. Attraverso una combinazione di quantizzazione, potatura e distillazione per strati, hanno scoperto un modo per ridurre le dimensioni di un modello GPT del 50% in un solo colpo, senza alcun ritraining e con una perdita minima di accuratezza. SparseGPT funziona efficacemente su modelli con 10-100+ miliardi di parametri.

Il metodo di deep learning utilizzato per realizzare ciò, SparseGPT , d potrebbe aprire la strada a forme più pratiche di intelligenza artificiale generativa, compresi sistemi personalizzati e ottimizzati per utenti specifici, come ad esempio un agente di viaggio, un medico o un assicuratore, adattandosi anche al comportamento e alle esigenze specifiche di una persona. Inoltre, la capacità di caricare modelli GPT anche ridimensionati su dispositivi potrebbe introdurre una maggiore sicurezza e protezione della privacy mantenendo i dati sensibili lontani dal cloud.

“La capacità di comprimere ed eseguire questi potenti modelli di linguaggio su dispositivi finali introduce capacità potenti”, afferma Dan Alistarh, professore presso l’ISTA e co-autore dell’articolo accademico SparseGPT. “Stiamo lavorando per trovare un modo per garantire risultati accurati e affidabili, anziché avere un modello che collassa e diventa inutilizzabile. Questo è un passo significativo in avanti.”

Torna all’inizio

Sovraccaricare il Modello

L’idea di comprimere i modelli di intelligenza artificiale non è particolarmente nuova. Già negli anni ’80, i ricercatori hanno iniziato a esplorare modi per ottimizzare i dati. Allo stesso modo in cui il cervello umano può ridurre le sinapsi e riallenarsi, hanno scoperto che spesso è possibile eliminare parametri indesiderati e non necessari senza compromettere il ragionamento e i risultati. Nel caso dei modelli GPT, l’obiettivo è ridurre le dimensioni di un modello senza alterarne sostanzialmente i risultati.

“Quando si allena inizialmente un modello, è importante avere un gran numero di parametri. Abbiamo visto empiricamente che i modelli più grandi sono più facili da allenare e in grado di estrarre informazioni significative dai dati quando sono sovradimensionati”, afferma Amir Gholami, ricercatore di grandi modelli di linguaggio e intelligenza artificiale presso l’Università della California, Berkeley. Tuttavia, una volta completato il processo di addestramento e raggiunta la convergenza, “non è più necessario conservare tutti quei parametri per ottenere risultati accurati”, afferma.

In effetti, “i ricercatori hanno scoperto che in alcuni casi è possibile ottenere lo stesso tipo di prestazioni da un grande modello di linguaggio come GPT che è 100 volte più piccolo dell’originale senza degradare le sue capacità”, afferma Gholami. La domanda è quali parametri rimuovere e come affrontare il compito nel modo più efficiente ed economico possibile. Non è un problema di poco conto, perché la costruzione e il riallenamento di un modello GPT possono richiedere migliaia di ore di GPU e i costi possono arrivare a milioni di dollari.

I data scientist utilizzano diverse tecniche per comprimere modelli come GPT-4 e Bard di Google. Nella quantizzazione, la precisione utilizzata per rappresentare i parametri viene ridotta da 16 bit a 4 bit; questo riduce le dimensioni del modello di un fattore 4. Man mano che le dimensioni del modello si riducono, questi modelli possono adattarsi a un numero minore di GPU, riducendo la latenza dell’inferenza e la richiesta energetica. Questo approccio aiuta a evitare una fenomeno recente di sovraccarico della memoria. “Questo significa che il collo di bottiglia non è più quanto velocemente si possono eseguire i calcoli, ma quanto velocemente si può alimentare il sistema con i dati. Quindi, meno byte è meglio”, afferma Gholami.

Un’altra tecnica ampiamente utilizzata è la sparità, che consiste nella rimozione di valori non necessari che non influiscono sui dati. Potrebbe essere considerata una quantizzazione a zero bit. La sparità strutturata comporta la rimozione di interi gruppi di parametri, il che semplifica l’implementazione e spesso porta a guadagni di efficienza diretti. Lo svantaggio è che si sacrifica l’accuratezza per la velocità, perché è difficile rimuovere grandi quantità di gruppi senza influire negativamente sul modello. La sparità non strutturata rimuove i parametri ridondanti senza alcun vincolo sul modello di sparità. Di conseguenza, è possibile mantenere l’accuratezza del modello anche a livelli di sparità ultra elevati.

I data scientist utilizzano questi approcci e altri come la potatura, che rimuove completamente i singoli parametri, per ridurre continuamente la memoria e il costo computazionale di questi modelli. I modelli risultanti compressi e distillati operano più velocemente, consumano meno energia e in alcuni casi producono persino risultati migliori. Come spiega Gholami, “si ottiene un framework di intelligenza artificiale più piccolo ma più efficiente”.

Torna all’inizio

Imparare il Linguaggio dell’Intelligenza Artificiale

L’approccio utilizzato dai data scientist per distillare e comprimere un modello GPT richiede una rete “insegnante” per addestrare la rete “studente”. “Il sistema impara ad approssimare un programma che esiste già. Mappa una funzione che puoi già calcolare”, afferma Christopher De Sa, professore assistente presso il Dipartimento di Scienze Informatiche dell’Università di Cornell. “Quindi, nel caso di una rete neurale, stai cercando di costruire un modello che abbia la stessa accuratezza di una rete neurale già esistente, ma che sia più piccolo”.

La sparità consiste nella rimozione di valori non necessari che non influiscono sui dati. Potrebbe essere considerata una quantizzazione a zero bit.

Un problema è che questi framework spesso richiedono un enorme investimento in ottimizzazione e riallenamento. “Producono modelli buoni e piccoli che mostrano una bassa perdita e un’alta accuratezza. Inoltre, i risultati non sono necessariamente rappresentativi del modello più grande”, afferma De Sa. Per molte applicazioni, questa variazione in alcune previsioni è accettabile, poiché il livello di accuratezza rimane elevato. “Tuttavia, se ti interessa la privacy o la sicurezza, potresti scoprire che la rete più grande non soddisfa i requisiti chiave perché non fa le stesse previsioni del modello originale”, aggiunge.

L’espansione dei metodi di quantizzazione, potatura e distillazione delle conoscenze rappresenta anche una sfida, afferma Elias Frantar, candidato al dottorato presso ISTA e coautore del documento SparseGPT. Ad esempio, molti dei modelli GPT attuali sono 1.000 volte più grandi rispetto a pochi anni fa e continuano a crescere a un ritmo frenetico. “Questo influisce sulle tecniche che si utilizzano per distillare un modello. Comprimere un modello con centinaia di miliardi di parametri richiede un pensiero e delle tecniche diverse”, afferma.

Quindi, quando i ricercatori di ISTA hanno lanciato il progetto SparseGPT, hanno adottato quello che Alistarh descrive come un approccio “multiuso” combinando potatura, quantizzazione e distillazione. La coppia si è concentrata sull’affrontare la sfida in modo modulare, compreso la compressione di diversi strati della rete separatamente e poi riunendo tutte le parti per produrre un modello completamente compresso. Anche se questo metodo ha generato guadagni significativi, non è necessariamente ideale.

“Se si potesse ottimizzare tutto insieme, si otterrebbero ultimamente i migliori risultati possibili”, afferma Frantar. “Ma poiché oggi questo non è possibile, la domanda diventa: ‘come possiamo ottenere i migliori risultati possibili con le risorse con cui stiamo lavorando?'”

Torna all’inizio

Abbassare il Rumore, Alzare i Segnali

Sebbene SparseGPT possa non essere perfetto, la tecnica ha spinto la compressione dei modelli GPT in nuovi territori. Utilizzando i modelli open source più grandi, OPT175B e BLOOM-176B, l’algoritmo SparseGPT ha elaborato i suoi più di 175 miliardi di parametri, corrispondenti a circa 320 gigabyte di dati, in meno di 4,5 ore, con una sparità non strutturata fino al 60%. C’è stato un aumento trascurabile della perplessità e, alla fine, i ricercatori sono stati in grado di rimuovere oltre 100 miliardi di pesi senza alcuna significativa deteriorazione delle prestazioni o dell’accuratezza.

L’algoritmo si basa su un approccio intelligente. Riesce a decomporre il compito di comprimere l’intero modello in problemi di compressione separati per ogni singolo strato, ognuno dei quali è un’istanza di regressione sparsa. Poi affronta i sottoproblemi rimuovendo iterativamente pesi, aggiornando contemporaneamente i pesi rimanenti per compensare l’errore commesso durante il processo di rimozione. L’algoritmo ottiene ulteriore efficienza congelando alcuni pesi in un pattern che massimizza le risorse computazionali richieste durante tutto l’algoritmo. L’accuratezza e l’efficienza risultanti rendono ora possibile affrontare modelli con oltre 100 miliardi di parametri.

È sorprendente che una singola GPU identifichi i dati che non sono necessari nel modello, di solito in poche ore, e presenti il modello compresso in una sola volta e senza alcun ritraining. “Una delle cose interessanti che abbiamo scoperto”, dice Alistarh, “è che questi grandi modelli sono estremamente robusti e resistenti al rumore digitale. Fondamentalmente, tutto il rumore viene filtrato mentre passa attraverso il modello, quindi si ottiene una rete ottimizzata per la compressione.”

Questa scoperta è una buona notizia per gli sviluppatori di software e altri che desiderano creare applicazioni commerciali. Al momento, varie comunità di appassionati e hacker stanno trovando modi per caricare modelli GPT più piccoli e non sempre autorizzati su dispositivi, inclusi il Raspberry Pi, e i ricercatori dell’Università di Stanford hanno trovato un modo per costruire un chatbot GPT con meno di 600 dollari statunitensi. Tuttavia, il team di Stanford ha terminato il cosiddetto chatbot Alpaca nell’aprile 2023 a causa dei “costi di hosting e delle carenze dei nostri filtri di contenuto”, affermando che ha fornito una “prestazione molto simile” al CPT-3.5 di OpenAI. e

Tuttavia, per raggiungere il prossimo livello di distillazione e compressione delle conoscenze, i ricercatori devono spingere ulteriormente la quantizzazione, la potatura, il fine tuning e altre tecniche. Alistarh ritiene che aumentare la potenza di calcolo possa aiutare, ma è anche necessario esplorare diverse tecniche, inclusa la suddivisione dei dataset in un maggior numero di sottogruppi, l’aggiustamento degli algoritmi e l’esplorazione dei pesi di sparità. Ciò potrebbe portare a tassi di compressione del 90% o superiori, afferma.

Torna all’inizio

I Risultati Contano

Al momento, nessuno sa quanto sia possibile comprimere mantenendo prestazioni ottimali su un determinato modello, De Sa afferma che lui e gli altri continuano a esplorare opzioni e approcci. I ricercatori affermano anche che è fondamentale procedere con cautela. Ad esempio, le modifiche al modello possono significare che i risultati possono mancare di un chiaro significato semantico o possono portare a risultati sorprendenti, inclusi allucinazioni che sembrano del tutto valide. “Dobbiamo concentrarci sulla preservazione delle proprietà del modello originale oltre all’accuratezza”, afferma De Sa. “È possibile ottenere lo stesso livello o addirittura un livello migliore di accuratezza, ma con previsioni e risultati significativamente diversi rispetto al modello più grande.”

Un altro problema è rappresentato dalle persone che caricano un sofisticato modello di intelligenza artificiale su un dispositivo e lo utilizzano per scopi illeciti, tra cui bot farms, spamming, phishing, fake news e altre attività illecite. Alistarh riconosce che si tratta di una preoccupazione legittima e la comunità della scienza dei dati deve esaminare attentamente l’etica coinvolta nell’utilizzo di un modello GPT su un dispositivo. Ciò ha spinto molti ricercatori a non pubblicare i parametri di addestramento e altre informazioni, afferma Gholami. In futuro, ricercatori e aziende di software dovranno considerare quali capacità siano ragionevoli da inserire in un dispositivo e quali tipi di risultati e esiti siano inaccettabili.

Tuttavia, SparseGPT e altri metodi che distillano e comprimono grandi modelli di linguaggio sono qui per restare. Modelli più efficienti cambieranno significativamente il calcolo e l’uso dell’intelligenza artificiale del linguaggio naturale in modi profondi. “Oltre a costruire modelli più efficienti e risparmiare energia, possiamo aspettarci che le tecniche di distillazione e compressione favoriscano la democratizzazione dei modelli GPT. Questo può mettere le persone al comando dei propri dati e introdurre nuovi modi di interagire con le macchine e tra di loro”, afferma De Sa.

Ulteriori letture

Frantar, E. e Alistarh, D. SparseGPT: i modelli di linguaggio massicci possono essere accuratamente potati in un solo passaggio, ArXiv, Vol. abs/2301.00774, Jan. 2, 2023; https://arxiv.org/pdf/2301.00774.pdf

Yao, Z., Dong, Z., Zheng, Z., Gholami, A., Yu, J. Tan, E., Wang, L., Huang, Q., Wang, Y., Mahoney, M.W., e Keutzer, K. HAWQ-V3: quantizzazione di reti neurali di tipo dyadic, Atti della 38a Conferenza Internazionale sul Machine Learning , PMLR 139, 2021; http://proceedings.mlr.press/v139/yao21a/yao21a.pdf

Polino, A. Pascanu, R., e Alistarh, D. Compressione del modello tramite distillazione e quantizzazione, ArXiv, Vol., abs/1802.05668, Feb. 15, 2018; https://arxiv.org/abs/1802.05668

Chee, J., Renz, M., Damle, A., e De Sa, C. Compressione del modello preservando la sua struttura per reti neurali, Advances in Neural Information Processing Systems , Oct. 31, 2022; https://openreview.net/forum?id=gtl9Hu2ndd

Cai, Y., Hua, W., Chen H., Suh, E,, De Sa, C., e Zhang, Z. La potatura strutturata è tutto ciò di cui hai bisogno per potare le CNN all’inizializzazione, arXiv:2203.02549, Mar. 4, 2022; https://arxiv.org/abs/2203.02549

Torna all’inizio

Autore

Samuel Greengard è un autore e giornalista con sede a West Linn, OR, USA.

Torna all’inizio

Note a piè di pagina

a. https://neuroflash.com/blog/gpt-4-parameters-rumors-and-forecasts

b. https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b8

c. https://www.cnbc.com/2023/03/13/chatgpt-and-generative-ai-are-booming-but-at-a-very-expensive-price.html

d. https://arxiv.org/abs/2301.00774

e. https://stanforddaily.com/2023/04/02/how-stanford-researchers-attempted-to-make-a-new-chatgpt-with-less-than-600/

©2023 ACM 0001-0782/23/8

È consentito copiare digitalmente o su supporto cartaceo parte o l’intero contenuto di questo documento per uso personale o didattico, a condizione che le copie non siano fatte o distribuite a scopo di lucro o di vantaggio commerciale e che tali copie riportino questa notifica e la citazione completa sulla prima pagina. I diritti d’autore per componenti di questo lavoro di proprietà di soggetti diversi dall’ACM devono essere rispettati. La riproduzione con credito è consentita. Per copiare diversamente, ripubblicare, pubblicare su server o redistribuire a elenchi, è necessario ottenere preventivamente un’autorizzazione specifica e/o pagare una tariffa. Richiedere l’autorizzazione a pubblicare a [email protected] o fax (212) 869-0481.

La Digital Library è pubblicata dall’Associazione per la Machinery Informatica. Copyright © 2023 ACM, Inc.