Cos’è un SuperNIC?
Cos'è un SuperNIC? Scopri tutto sul concetto di SuperNIC!
l’IA generativa è l’ultima svolta nel mutevole panorama digitale. Una delle innovazioni rivoluzionarie che lo rendono possibile è un termine relativamente nuovo: SuperNIC.
Cosa è un SuperNIC?
SuperNIC è una nuova classe di acceleratori di rete progettati per potenziare il carico di lavoro AI di iperscala nei cloud basati su Ethernet. Fornisce una connettività di rete ultra veloce per la comunicazione GPU-to-GPU, raggiungendo velocità fino a 400 Gb/s utilizzando l’accesso diretto alla memoria remota (RDMA) tramite la tecnologia Ethernet convergente (RoCE).
SuperNIC combina i seguenti aspetti unici:
- Riordinamento ad alta velocità dei pacchetti per garantire che i pacchetti di dati vengano ricevuti e elaborati nello stesso ordine in cui sono stati trasmessi originariamente. Ciò mantiene l’integrità sequenziale del flusso di dati.
- Controllo di congestione avanzato che utilizza dati di telemetria in tempo reale e algoritmi consapevoli della rete per gestire e prevenire la congestione nelle reti AI.
- Elaborazione programmabile di calcolo sul percorso di input/output (I/O) per consentire la personalizzazione ed estendibilità dell’infrastruttura di rete nei data center cloud AI.
- Design efficiente dal punto di vista energetico e a basso profilo per ospitare in modo efficiente i carichi di lavoro AI all’interno di budget energetici limitati.
- Ottimizzazione completa dello stack AI, comprese le operazioni di calcolo, rete, archiviazione, software di sistema, librerie di comunicazione e framework di applicazioni.
Recentemente NVIDIA ha presentato il primo SuperNIC al mondo dedicato al calcolo AI, basato sulla piattaforma di rete BlueField-3. Fa parte della piattaforma NVIDIA Spectrum-X, dove si integra perfettamente con il sistema switch Ethernet Spectrum-4.
- Costruire un ordinatore Lego Technic con Riconoscimento Avanzato degli Oggetti in Tempo Reale
- Migliori modelli di machine learning con i computer quantistici
- Scientisti stampa in 3D i follicoli piliferi in pelle coltivata in laboratorio
Insieme, il SuperNIC NVIDIA BlueField-3 e il sistema switch Spectrum-4 formano la base di un tessuto di calcolo accelerato progettato specificamente per ottimizzare i carichi di lavoro AI. Spectrum-X offre costantemente livelli di efficienza di rete elevati, superando gli ambienti Ethernet tradizionali.
“In un mondo in cui l’IA sta guidando la prossima ondata di innovazione tecnologica, il SuperNIC BlueField-3 è un ingranaggio vitale nel meccanismo”, ha detto Yael Shenhav, vicepresidente dei prodotti DPU e NIC presso NVIDIA. “I SuperNIC garantiscono che i tuoi carichi di lavoro AI vengano eseguiti con efficienza e velocità, diventando componenti fondamentali per abilitare il futuro del calcolo AI”.
L’evoluzione del panorama dell’IA e delle reti
Il campo dell’IA sta attraversando una svolta sismica, grazie all’avvento dell’IA generativa e dei grandi modelli di linguaggio. Queste potenti tecnologie hanno aperto nuove possibilità, consentendo ai computer di gestire nuovi compiti.
Il successo dell’IA si basa fortemente sul calcolo accelerato GPU per elaborare enormi quantità di dati, addestrare grandi modelli AI e consentire l’inferenza in tempo reale. Questo nuovo potere di calcolo ha aperto nuove possibilità, ma ha anche posto sfide alle reti cloud Ethernet.
L’Ethernet tradizionale, la tecnologia alla base dell’infrastruttura internet, è stata concepita per offrire ampia compatibilità e connettere applicazioni scarsamente accoppiate. Non è stata progettata per gestire le esigenze computazionali complesse dei moderni carichi di lavoro AI, che coinvolgono un processo di elaborazione parallela strettamente accoppiato, trasferimenti rapidi di dati e modelli di comunicazione unici, tutti i quali richiedono una connettività di rete ottimizzata.
Le schede di interfaccia di rete (NIC) di base sono state progettate per calcolo a uso generale, trasmissione universale dei dati e interoperabilità. Non sono mai state progettate per affrontare le sfide uniche poste dall’intensità computazionale dei carichi di lavoro AI.
Le schede di rete standard mancano delle funzionalità e delle capacità necessarie per un trasferimento efficiente dei dati, una bassa latenza e un’efficienza prevedibile fondamentale per i compiti AI. I SuperNIC, d’altra parte, sono appositamente progettati per i moderni carichi di lavoro AI.
Vantaggi di SuperNIC negli ambienti di calcolo AI
Le unità di elaborazione dei dati (DPU) offrono una serie di funzionalità avanzate, tra cui una connettività di rete ad alta velocità, bassa latenza e altro ancora. Dalla loro introduzione nel 2020, le DPU hanno guadagnato popolarità nel campo del cloud computing, principalmente grazie alla capacità di evitare, accelerare e isolare l’elaborazione delle infrastrutture dei data center.
Anche se le DPU e i SuperNIC condividono una serie di funzionalità e capacità, i SuperNIC sono ottimizzati in modo unico per l’accelerazione delle reti per l’IA. Il grafico qui di seguito mostra un confronto tra loro.
Flussi di comunicazione per l’addestramento e l’elaborazione distribuita dell’IA dipendono fortemente dalla disponibilità della larghezza di banda di rete per il successo. I SuperNIC, distinti per il loro design elegante, scalano in modo più efficace rispetto ai DPU, offrendo un’impressionante larghezza di banda di rete di 400 Gb/s per GPU.
Il rapporto 1:1 tra GPU e SuperNIC all’interno di un sistema può migliorare significativamente l’efficienza dei carichi di lavoro dell’IA, portando a una maggiore produttività e risultati superiori per le aziende.
L’unico scopo dei SuperNIC è quello di accelerare la rete per il calcolo dell’IA basato su cloud. Di conseguenza, raggiunge questo obiettivo utilizzando meno potenza di calcolo rispetto a un DPU, che richiede risorse di calcolo considerevoli per alleggerire le applicazioni da una CPU host.
I requisiti di calcolo ridotti si traducono anche in un consumo energetico inferiore, il che è particolarmente importante nei sistemi che contengono fino a otto SuperNIC.
Ulteriori caratteristiche distintive del SuperNIC includono le sue capacità di rete dedicate all’IA. Quando è strettamente integrato con uno switch NVIDIA Spectrum-4 ottimizzato per l’IA, offre routing adattivo, gestione dei pacchetti fuori ordine e controllo della congestione ottimizzato. Queste funzionalità avanzate sono fondamentali per accelerare gli ambienti cloud Ethernet dell’IA.
Rivoluzionare il Calcolo dell’IA basato su Cloud
Il SuperNIC BlueField-3 di NVIDIA offre diversi vantaggi che lo rendono fondamentale per l’infrastruttura pronta per l’IA:
- Efficienza ottimale del carico di lavoro dell’IA: il SuperNIC BlueField-3 è progettato appositamente per il calcolo di massa intensivo di rete, rendendolo ideale per i carichi di lavoro dell’IA. Assicura che le attività dell’IA vengano eseguite in modo efficiente, senza intoppi.
- Prestazioni costanti e prevedibili: nei data center multi-tenant in cui numerosi task vengono elaborati contemporaneamente, il SuperNIC BlueField-3 garantisce che ogni attività e le prestazioni dei tenant siano isolate, prevedibili e non influenzate da altre attività di rete.
- Infrastruttura cloud multi-tenant sicura: la sicurezza è una priorità assoluta, soprattutto nei data center che gestiscono informazioni sensibili. Il SuperNIC BlueField-3 mantiene livelli di sicurezza elevati, consentendo a più tenant di coesistere mantenendo dati e elaborazioni isolate.
- Infrastruttura di rete estendibile: il SuperNIC BlueField-3 non ha limiti di scopo, è altamente flessibile e adattabile a una moltitudine di altre esigenze di infrastruttura di rete.
- Supporto integrato a un’ampia gamma di produttori di server: il SuperNIC BlueField-3 si integra perfettamente nella maggior parte dei server di classe enterprise senza un consumo eccessivo di energia nei data center.
Scopri di più sui SuperNIC BlueField-3 di NVIDIA, inclusa la loro integrazione nelle piattaforme per data center di NVIDIA, nel whitepaper: Next-Generation Networking for the Next Wave of AI.