Ricercatori AWS introducono Gemini Pionieristica riparazione rapida in caso di fallimento nell’addestramento del deep learning su larga scala

Ricercatori AWS presentano Gemini la nuova frontiera nella rapida riparazione dei fallimenti nel training su larga scala del deep learning

“`html

Un team di ricercatori dell’Università di Rice e Amazon Web Services ha sviluppato un sistema di allenamento distribuito chiamato GEMINI, che mira a migliorare il recupero dei guasti nell’allenamento di modelli di apprendimento automatico di grandi dimensioni. Il sistema affronta le sfide associate all’utilizzo della memoria della CPU per i checkpoint, garantendo una maggiore disponibilità e riducendo al minimo l’interferenza con il traffico di allenamento. GEMINI ha mostrato miglioramenti significativi rispetto alle soluzioni esistenti, rappresentando quindi un avanzamento promettente nell’allenamento di modelli di deep learning su larga scala.

GEMINI ha introdotto un sistema di allenamento distribuito per migliorare il processo di recupero nell’allenamento di modelli di grandi dimensioni. Le soluzioni precedenti erano limitate dalla larghezza di banda e dai vincoli di archiviazione, che influivano sulla frequenza di checkpointing e sull’accuratezza del modello, nonostante gli interfacce di checkpointing offerti da framework di deep learning come PyTorch e TensorFlow. L’approccio di GEMINI ottimizza il posizionamento dei checkpoint e la pianificazione del traffico, rappresentando quindi un prezioso avanzamento in questo campo.

I modelli di deep learning, soprattutto quelli di grandi dimensioni, sono noti per le loro prestazioni impressionanti. Tuttavia, l’allenamento di modelli di grandi dimensioni richiede spesso miglioramenti a causa della sua complessità e del tempo di esecuzione. Le soluzioni attuali per il recupero dei guasti nell’allenamento di modelli di grandi dimensioni sono ostacolate dalla larghezza di banda limitata nella memoria remota, il che comporta costi significativi per il recupero. GEMINI ha introdotto innovative tecniche di memoria CPU che consentono un rapido recupero dei guasti. Le strategie di GEMINI per il posizionamento ottimale dei checkpoint e la pianificazione del traffico hanno portato a un recupero dei guasti significativamente più veloce rispetto alle soluzioni esistenti. Ha dato un contributo notevole nel campo dell’apprendimento automatico profondo.

GEMINI si basa su Deep-Speed, utilizzando l’impostazione ZeRO-3 per l’allenamento distribuito. Gruppi di ridimensionamento automatico di Amazon EC2 vengono utilizzati per gestire gli stati del modello GPU. I checkpoint vengono archiviati sia nella memoria CPU che nella memoria remota, con una frequenza di checkpoint di tre ore. GEMINI utilizza una strategia di posizionamento dei checkpoint quasi ottimale per massimizzare la probabilità di recupero e un algoritmo di pianificazione del traffico per ridurre l’interferenza. L’analisi viene eseguita su GPU NVIDIA ma si applica ad altri acceleratori come AWS Trainium.

GEMINI migliora significativamente il recupero dei guasti, superando le soluzioni esistenti di oltre 13 volte. I risultati della valutazione confermano la sua efficacia nel ridurre lo spreco di tempo senza compromettere il throughput di allenamento. L’adattabilità di GEMINI è evidente in diverse frequenze di guasti e scale di allenamento, dimostrando il suo potenziale per l’allenamento distribuito su larga scala. L’algoritmo di interleaving del traffico in GEMINI influenza positivamente il throughput di allenamento, migliorando ulteriormente l’efficienza del sistema.

Le soluzioni esistenti per il recupero dei guasti nell’allenamento di modelli di grandi dimensioni sono limitate dalla larghezza di banda della memoria remota, impedendo alte frequenze di checkpoint e comportando un significativo spreco di tempo. Lo studio si concentra sull’allenamento statico e sincrono con risorse di calcolo fisse, omettendo la considerazione di metodi di allenamento elastici e asincroni. La questione delle dimensioni della memoria CPU per archiviare la cronologia dei checkpoint per scopi diversi dal recupero dei guasti non viene affrontata nella ricerca attuale.

In conclusione, GEMINI è un sistema di allenamento distribuito efficiente e scalabile che offre un rapido e affidabile recupero dei guasti attraverso il checkpointing nella memoria CPU e una strategia avanzata di posizionamento. Le alte frequenze di checkpoint aiutano a ridurre lo spreco di tempo senza influire sul throughput di allenamento, rendendolo un’eccellente soluzione per l’allenamento distribuito su larga scala su cluster di GPU.

“`