Perché le GPU sono ottime per l’IA

Le GPU il potente alleato dell'IA

Le GPU sono stati definiti i metalli delle terre rare – persino l’oro – dell’intelligenza artificiale, perché sono fondamentali per l’era dell’IA generativa di oggi.

Tre ragioni tecniche, e molte storie, spiegano perché sia così. Ogni ragione ha molteplici sfaccettature degne di esplorazione, ma a un livello più elevato:

  • Le GPU utilizzano il parallelismo.
  • I sistemi con GPU raggiungono altezze di supercalcolo.
  • Lo stack software delle GPU per l’IA è ampio e profondo.

Il risultato netto è che le GPU eseguono calcoli tecnici più rapidamente e con maggiore efficienza energetica rispetto alle CPU. Ciò significa che offrono prestazioni all’avanguardia per l’addestramento e l’elaborazione dell’IA, oltre a vantaggi in una vasta gamma di applicazioni che utilizzano il calcolo accelerato.

Nel suo recente rapporto sull’IA, il gruppo di Intelligenza Artificiale Centrata sull’Uomo di Stanford ha fornito un contesto. Le prestazioni delle GPU “sono aumentate circa 7.000 volte” dal 2003 e il rapporto tra prezzo e prestazioni è “5.600 volte superiore”, ha riportato.

Il rapporto di Stanford sulle prestazioni delle GPU
Un rapporto del 2023 ha evidenziato l’incremento significativo delle prestazioni delle GPU e del rapporto prezzo/prestazioni.

Il rapporto ha anche citato l’analisi di Epoch, un gruppo di ricerca indipendente che analizza e prevede gli sviluppi dell’IA.

“Le GPU sono la piattaforma di elaborazione dominante per accelerare i carichi di lavoro dell’apprendimento automatico e la maggior parte (se non tutti) dei modelli più grandi degli ultimi cinque anni è stata addestrata su GPU… [hanno] quindi contribuito in modo centrale ai progressi recenti nell’IA”, ha dichiarato Epoch sul proprio sito.

Uno studio del 2020 che ha valutato la tecnologia dell’IA per il governo degli Stati Uniti ha tratto conclusioni simili.

“Ci aspettiamo che i chip AI all’avanguardia siano da una a tre ordini di grandezza più economici dei processori leading-node se si contano i costi di produzione e di esercizio”, ha dichiarato.

Le GPU NVIDIA hanno aumentato le prestazioni dell’elaborazione dell’IA di 1.000 volte negli ultimi dieci anni, ha dichiarato Bill Dally, il chief scientist dell’azienda, in un intervento al Hot Chips, un raduno annuale di ingegneri di semiconduttori e sistemi.

ChatGPT diffonde la notizia

ChatGPT ha fornito un potente esempio di come le GPU siano ottime per l’IA. Il grande modello linguistico (LLM), addestrato ed eseguito su migliaia di GPU NVIDIA, alimenta servizi di IA generativa utilizzati da oltre 100 milioni di persone.

Sin dal suo lancio nel 2018, MLPerf, il benchmark di riferimento del settore per l’IA, ha fornito dati che evidenziano le prestazioni all’avanguardia delle GPU NVIDIA sia nell’addestramento che nell’elaborazione dell’IA.

Ad esempio, i Superchip NVIDIA Grace Hopper hanno dominato l’ultimo round di test di elaborazione dell’IA. Il software di elaborazione TensorRT-LLM di NVIDIA, rilasciato dopo quel test, offre un incremento delle prestazioni fino a 8 volte e una riduzione dell’utilizzo energetico e del costo totale di proprietà superiore a 5 volte. Le GPU NVIDIA hanno vinto ogni round di test di addestramento e elaborazione MLPerf dal rilascio del benchmark nel 2019.

A febbraio, le GPU NVIDIA hanno fornito risultati di primo piano per l’inferenza, offrendo migliaia di inferenze al secondo sui modelli più esigenti nel benchmark STAC-ML Markets, un indicatore chiave delle prestazioni tecnologiche per l’industria dei servizi finanziari.

Un team di ingegneri del software di Red Hat l’ha descritto in modo succinto in un blog: “Le GPU sono diventate la base dell’intelligenza artificiale”.

IA sotto il cofano

Uno sguardo rapido sotto il cofano mostra perché le GPU e l’IA formano una potente coppia.

Un modello di IA, chiamato anche rete neurale, è essenzialmente una lasagna matematica, composta da strati e strati di equazioni di algebra lineare. Ogni equazione rappresenta la probabilità che un dato sia correlato ad un altro.

Da parte loro, le GPU sono dotate di migliaia di core, piccoli calcolatori che lavorano in parallelo per calcolare le operazioni matematiche che compongono un modello di IA. Questo, a grandi linee, è come funziona il calcolo dell’IA.

Tensor Core altamente ottimizzati

Nel corso del tempo, gli ingegneri di NVIDIA hanno ottimizzato i core delle GPU per soddisfare le esigenze sempre crescenti dei modelli di IA. Le ultime GPU includono Tensor Core che sono 60 volte più potenti rispetto ai design della prima generazione per elaborare i calcoli matriciali utilizzati dalle reti neurali.

Inoltre, le GPU Hopper Tensor Core di NVIDIA includono un Transformer Engine che può regolarsi automaticamente alla precisione ottimale necessaria per elaborare i modelli di trasformatori, la classe di reti neurali che hanno dato origine all’IA generativa.

Man mano che le generazioni di GPU si sono susseguite, hanno aumentato la quantità di memoria e ottimizzato le tecniche per memorizzare un intero modello di IA in una singola GPU o un insieme di GPU.

Crescita dei modelli, espansione dei sistemi

La complessità dei modelli di IA sta crescendo in modo impressionante, aumentando del 10 volte all’anno.

L’attuale LLM all’avanguardia, GPT4, contiene più di un trilione di parametri, un parametro che ne misura la densità matematica. Nel 2018, un LLM popolare aveva meno di 100 milioni di parametri.

Grafico che mostra un miglioramento delle prestazioni di 1.000 volte sull'inferenza di IA in un decennio per singole GPU
In una recente presentazione a Hot Chips, il Chief Scientist di NVIDIA, Bill Dally, ha descritto come le prestazioni delle singole GPU sull’inferenza di IA si sono espandevano di 1.000 volte nell’ultimo decennio.

I sistemi GPU sono stati all’altezza della sfida. Si estendono fino a supercomputer, grazie ai veloci interconnessioni NVLink e alle reti NVIDIA Quantum InfiniBand.

Ad esempio, il DGX GH200, un supercomputer AI ad alta memoria, combina fino a 256 superchip NVIDIA GH200 Grace Hopper in una singola GPU di dimensioni di un data center con 144 terabyte di memoria condivisa.

Ogni superchip GH200 è un singolo server con 72 core CPU Arm Neoverse e quattro petaflop di prestazioni di IA. Una nuova configurazione
di sistemi Grace Hopper a quattro vie include in un singolo nodo di calcolo ben 288 core Arm e 16 petaflop di prestazioni di IA con fino a 2,3 terabyte di memoria ad alta velocità.

E NVIDIA H200 Tensor Core GPU annunciato a novembre offre fino a 288 gigabyte della più recente tecnologia di memoria HBM3e.

Software che Copre tutti gli Aspetti

Un oceano in espansione di software GPU si è evoluto dal 2007 per consentire ogni aspetto dell’IA, dalle funzionalità più avanzate alle applicazioni di alto livello.

La piattaforma NVIDIA AI include centinaia di librerie e app software. Il linguaggio di programmazione CUDA e la libreria cuDNN-X per deep learning forniscono una base su cui gli sviluppatori hanno creato software come NVIDIA NeMo, un framework che consente agli utenti di costruire, personalizzare ed eseguire l’inferenza sui propri modelli AI generativi.

Molti di questi elementi sono disponibili come software open source, un pilastro grab-and-go degli sviluppatori di software. Più di un centinaio di essi sono confezionati nella piattaforma NVIDIA AI Enterprise per le aziende che richiedono sicurezza completa e supporto. Sempre più spesso, sono disponibili anche dai principali fornitori di servizi cloud come API e servizi su NVIDIA DGX Cloud.

SteerLM, uno degli ultimi aggiornamenti del software AI per GPU NVIDIA, consente agli utenti di ottimizzare i modelli durante l’inferenza.

Un Incremento di Velocità di 70 volte nel 2008

Le storie di successo risalgono a un documento del 2008 dell’AI pioniere Andrew Ng, allora ricercatore a Stanford. Utilizzando due GPU NVIDIA GeForce GTX 280, il suo team di tre persone ha ottenuto un incremento di velocità di 70 volte rispetto alle CPU nel processare un modello AI con 100 milioni di parametri, completando un lavoro che precedentemente richiedeva diverse settimane in un solo giorno.

“I moderni processori grafici superano di gran lunga le capacità computazionali delle CPU multicore e hanno il potenziale per rivoluzionare l’applicabilità dei metodi di apprendimento profondo non supervisionato”, riportarono.

Immagine di Andrew Ng che mostra una slide in una presentazione sulla performance delle GPU per l'IA
Andrew Ng ha descritto le sue esperienze nell’uso delle GPU per l’IA in una presentazione al GTC 2015.

In una presentazione del 2015 al NVIDIA GTC, Ng ha descritto come ha continuato ad utilizzare più GPU per scalare il suo lavoro, eseguendo modelli più grandi presso Google Brain e Baidu. Successivamente, ha contribuito a fondare Coursera, una piattaforma di formazione online in cui ha insegnato a centinaia di migliaia di studenti di AI.

Ng considera Geoff Hinton, uno dei padri fondatori dell’IA moderna, uno dei suoi influenti. “Ricordo di essere andato da Geoff Hinton dicendo guarda CUDA, penso che possa aiutare a costruire reti neurali più grandi”, ha detto nella presentazione al GTC.

Il professore dell’Università di Toronto ha fatto propaganda per le GPU. “Nel 2009, ricordo di aver tenuto una presentazione a NIPS [ora NeurIPS], in cui ho detto a circa 1.000 ricercatori che avrebbero dovuto tutti comprare le GPU perché le GPU saranno il futuro dell’apprendimento automatico”, ha detto Hinton in un rapporto stampa.

Accelerazione con le GPU

Si prevede che i progressi dell’IA avranno ripercussioni sull’economia globale.

Un rapporto McKinsey di giugno ha stimato che l’IA generativa potrebbe aggiungere l’equivalente di 2,6-4,4 trilioni di dollari all’anno nei 63 casi d’uso analizzati in settori come banche, assistenza sanitaria e vendita al dettaglio. Quindi, non sorprende che la relazione sull’AI del Stanford del 2023 abbia affermato che la maggioranza dei dirigenti aziendali si aspetta di aumentare gli investimenti in IA.

Oggi, più di 40.000 aziende utilizzano le GPU NVIDIA per l’intelligenza artificiale e l’elaborazione accelerata, attirando una comunità globale di 4 milioni di sviluppatori. Insieme stanno avanzando nella scienza, sanità, finanza e praticamente in ogni settore.

Tra le ultime conquiste, NVIDIA ha descritto un incredibile incremento di velocità di 700.000 volte utilizzando l’IA per combattere il cambiamento climatico, sottraendo anidride carbonica dall’atmosfera (vedi video qui sotto). È una delle molteplici vie in cui NVIDIA applica le prestazioni delle GPU all’IA e oltre.

Scopri come le GPU mettono l’IA in produzione.