Orizzonti ampi i punti chiave della presentazione di NVIDIA indicano la strada per ulteriori progressi nell’Intelligenza Artificiale

NVIDIA's presentation highlights broad horizons and key points for further progress in Artificial Intelligence

I progressi drammatici delle prestazioni hardware hanno generato l’IA generativa e un ricco flusso di idee per futuri incrementi di velocità che porteranno l’apprendimento automatico a nuove vette, ha detto oggi in una presentazione Bill Dally, scienziato capo di NVIDIA e vicepresidente senior della ricerca.

Dally ha descritto una serie di tecniche in fase di sviluppo, alcune delle quali già mostrano risultati impressionanti, in un intervento a Hot Chips, un evento annuale per architetti di processori e sistemi.

“I progressi nell’IA sono stati enormi, sono stati resi possibili dall’hardware e sono ancora limitati dall’hardware per l’apprendimento profondo”, ha detto Dally, uno dei più importanti scienziati informatici al mondo e ex presidente del dipartimento di informatica dell’Università di Stanford.

Ha mostrato, ad esempio, come ChatGPT, il grande modello di linguaggio (LLM) utilizzato da milioni di persone, potesse suggerire una struttura per la sua presentazione. Tali capacità devono gran parte della loro previsione ai miglioramenti delle GPU nelle prestazioni di inferenza dell’IA nell’ultimo decennio, ha detto.

I progressi nelle prestazioni delle singole GPU sono solo una parte di una storia più ampia che include miglioramenti di milioni di volte nella scalabilità verso supercomputer di dimensioni di un data center.

La ricerca offre 100 TOPS/Watt

I ricercatori stanno preparando la prossima ondata di miglioramenti. Dally ha descritto un chip di prova che ha dimostrato quasi 100 tera operazioni per watt su un LLM.

L’esperimento ha mostrato un modo efficiente dal punto di vista energetico per accelerare ulteriormente i modelli di trasformatori utilizzati nell’IA generativa. Ha utilizzato l’aritmetica a quattro bit, uno dei vari approcci numerici semplificati che promettono guadagni futuri.

Bill Dally

Nel guardare più avanti, Dally ha discusso modi per velocizzare i calcoli e risparmiare energia utilizzando la matematica logaritmica, un approccio dettagliato da NVIDIA in un brevetto del 2021.

Adattamento dell’hardware all’IA

Ha esplorato mezza dozzina di altre tecniche per adattare l’hardware a specifici compiti di intelligenza artificiale, spesso definendo nuovi tipi di dati o operazioni.

Dally ha descritto modi per semplificare le reti neurali, potando sinapsi e neuroni in un approccio chiamato sparsità strutturale, adottato per la prima volta nelle GPU Tensor Core A100 di NVIDIA.

“Non abbiamo finito con la sparsità”, ha detto. “Dobbiamo fare qualcosa con le attivazioni e possiamo avere una maggiore sparsità anche nei pesi”.

I ricercatori devono progettare hardware e software in modo congiunto, prendendo decisioni oculate su dove investire energia preziosa, ha detto Dally. Ad esempio, i circuiti di memoria e comunicazione devono minimizzare gli spostamenti di dati.

“È un momento divertente per essere un ingegnere informatico perché stiamo permettendo questa enorme rivoluzione nell’IA, e non abbiamo ancora compreso appieno quanto grande sarà questa rivoluzione”, ha detto Dally.

Reti più flessibili

In un intervento separato, Kevin Deierling, vicepresidente del networking di NVIDIA, ha descritto la flessibilità unica dei DPU BlueField di NVIDIA e degli switch di rete Spectrum di NVIDIA per l’allocazione delle risorse in base al traffico di rete in continuo cambiamento o alle regole degli utenti.

La capacità dei chip di spostare dinamicamente i flussi di accelerazione dell’hardware in pochi secondi consente il bilanciamento del carico con il massimo throughput e fornisce alle reti principali un nuovo livello di adattabilità. Ciò è particolarmente utile per difendersi dalle minacce alla sicurezza informatica.

“Oggi, con i carichi di lavoro di IA generativa e la sicurezza informatica, tutto è dinamico, le cose cambiano costantemente”, ha detto Deierling. “Quindi stiamo passando alla programmabilità in tempo di esecuzione e alle risorse che possiamo modificare al volo”.

Inoltre, i ricercatori di NVIDIA e dell’Università di Rice stanno sviluppando modi per consentire agli utenti di sfruttare la flessibilità in tempo di esecuzione utilizzando il popolare linguaggio di programmazione P4.

Grace guida le CPU dei server

Un intervento di Arm sulle sue unità di elaborazione Neoverse V2 include un aggiornamento sulle prestazioni del superchip Grace CPU di NVIDIA, il primo processore che le implementa.

Le prove mostrano che, alla stessa potenza, i sistemi Grace offrono fino a due volte più throughput rispetto ai server x86 attuali su una varietà di carichi di lavoro della CPU. Inoltre, il programma SystemReady di Arm certifica che i sistemi Grace eseguiranno i sistemi operativi, i container e le applicazioni Arm esistenti senza alcuna modifica.

Grace offre ai gestori dei data center la possibilità di ottenere più prestazioni o di utilizzare meno energia.

Grace utilizza un tessuto ultra veloce per collegare 72 core Arm Neoverse V2 in un singolo chip, quindi una versione di NVLink collega due di questi chip in un pacchetto, offrendo una larghezza di banda di 900 GB/s. È il primo CPU per data center a utilizzare la memoria LPDDR5X di classe server, offrendo il 50% in più di larghezza di banda della memoria a un costo simile, ma con l’ottavo del consumo energetico della memoria di un server tipico.

Hot Chips è iniziato il 27 agosto con una giornata completa di tutorial, comprese le presentazioni degli esperti di NVIDIA sull’inferenza di intelligenza artificiale e sui protocolli per l’interconnessione chip-to-chip, e si estende fino ad oggi.