Microsoft AI presenta una strategia avanzata di ottimizzazione della comunicazione basata su ZeRO per un efficiente addestramento di modelli di grandi dimensioni, senza essere limitati dalle dimensioni del batch o dalla larghezza di banda.

Microsoft AI presenta una strategia avanzata di ottimizzazione della comunicazione basata su ZeRO per addestrare modelli di grandi dimensioni in modo efficiente, senza limiti di batch o larghezza di banda.

I ricercatori di Microsoft hanno introdotto un nuovo sistema chiamato ZeRO++ sviluppato per ottimizzare l’addestramento di grandi modelli di intelligenza artificiale, affrontando le sfide dell’elevato overhead di trasferimento dati e della larghezza di banda limitata. ZeRO++ si basa sulle ottimizzazioni esistenti di ZeRO e offre strategie di comunicazione migliorate per migliorare l’efficienza dell’addestramento e ridurre il tempo e il costo dell’addestramento.

L’addestramento di modelli di grandi dimensioni come Turing-NLG, ChatGPT e GPT-4 richiede risorse di memoria e di elaborazione sostanziali su più dispositivi GPU. ZeRO++, sviluppato da DeepSpeed, introduce strategie di ottimizzazione della comunicazione per superare le limitazioni di ZeRO in scenari con una piccola dimensione di batch per GPU o durante l’addestramento su cluster a bassa larghezza di banda.

La famiglia di ottimizzazioni ZeRO, compresa ZeRO-Inference, consente la suddivisione degli stati del modello su GPU anziché la replicazione, utilizzando la memoria collettiva della GPU e la potenza di elaborazione. Tuttavia, ZeRO può comportare elevati overhead di comunicazione durante l’addestramento. ZeRO++ affronta questo problema incorporando tre insiemi di ottimizzazioni della comunicazione: la comunicazione dei pesi quantizzati (qwZ), la suddivisione gerarchica dei pesi (hpZ) e la comunicazione quantizzata dei gradienti (qgZ).

Per ridurre il volume di comunicazione dei parametri, ZeRO++ utilizza la quantizzazione sui pesi, utilizzando la quantizzazione a blocchi per preservare la precisione dell’addestramento. Questo processo di quantizzazione ottimizzato è più veloce e preciso rispetto alla quantizzazione di base. Per ridurre l’overhead di comunicazione durante la propagazione all’indietro, ZeRO++ scambia la memoria GPU per la comunicazione mantenendo una copia completa del modello all’interno di ogni macchina. Per la comunicazione del gradiente, ZeRO++ introduce qgZ, un nuovo paradigma di comunicazione del gradiente quantizzato che riduce il traffico e la latenza tra i nodi.

Queste ottimizzazioni della comunicazione comportano una significativa riduzione del volume di comunicazione. ZeRO++ raggiunge una riduzione fino a 4 volte rispetto a ZeRO, migliorando la velocità e l’efficienza dell’addestramento. ZeRO++ offre un miglioramento del throughput del 28% al 36% rispetto a ZeRO-3 in cluster ad alta larghezza di banda quando si utilizzano piccole dimensioni di batch per GPU. ZeRO++ ottiene una velocità media fino a 2 volte superiore in cluster a bassa larghezza di banda rispetto a ZeRO-3, rendendo l’addestramento di modelli di grandi dimensioni più accessibile su una maggiore varietà di cluster.

ZeRO++ non è limitato a scenari di addestramento, ma si estende all’apprendimento per rinforzo dal feedback umano (RLHF) utilizzato nei modelli di dialogo. Integrando ZeRO++ con DeepSpeed-Chat, l’apprendimento RLHF può beneficiare di una migliore generazione e fasi di addestramento, ottenendo un throughput di generazione fino a 2,25 volte migliore e un throughput di addestramento fino a 1,26 volte migliore rispetto a ZeRO.

DeepSpeed ha rilasciato ZeRO++ per rendere l’addestramento di grandi modelli più efficiente e accessibile alla comunità dell’IA. Il sistema è progettato per accelerare l’addestramento, ridurre l’overhead di comunicazione e consentire batch di dimensioni maggiori, risparmiando tempo e risorse. I ricercatori e i professionisti possono sfruttare ZeRO++ per addestrare modelli come ChatGPT in modo più efficace ed esplorare nuove possibilità nell’ambito dell’IA.

AI Shorts,Applications,artificial intelligence,Editors Pick,Language Model,Large Language Model,Machine Learning,Staff,Tech News,Technology,Uncategorized

I ricercatori di UC Berkeley e Meta AI propongono un modello di riconoscimento delle azioni lagrangiane unendo la posa 3D e l’aspetto contestualizzato dei tracklet.

Microsoft AI presenta una strategia avanzata di ottimizzazione della comunicazione basata su ZeRO per un efficiente addestramento di modelli di grandi dimensioni, senza essere limitati dalle dimensioni del batch o dalla larghezza di banda.

Microsoft AI presenta una strategia avanzata di ottimizzazione della comunicazione basata su ZeRO per addestrare modelli di grandi dimensioni in modo efficiente, senza limiti di batch o larghezza di banda.

I ricercatori di UC Berkeley e Meta AI propongono un modello di riconoscimento delle azioni lagrangiane unendo la posa 3D e l’aspetto contestualizzato dei tracklet.

Sostituirà l’AI gli esseri umani?

Rivoluzionare la rilevazione del cancro l&#...

L’artista Pal nel tuo taschino SnapFu...

Comprensione della modellizzazione della mi...

Ricerca di similarità, Parte 5 Hashing Sens...

Incontra MeLoDy Un Modello di Diffusione Te...

Come funziona la diagnosi medica dell’...

Apprendimento Automatico