Accendendo il futuro il rilascio di TensorRT-LLM accelera le prestazioni di inferenza dell’IA, aggiunge supporto per i nuovi modelli in esecuzione su PC Windows 11 alimentati da RTX

Il futuro si accende il rilascio di TensorRT-LLM accelera le prestazioni dell'IA e aggiunge supporto per i nuovi modelli su PC Windows 11 con RTX

L’intelligenza artificiale sui PC Windows 11 segna un momento cruciale nella storia della tecnologia, rivoluzionando l’esperienza per giocatori, creatori, streamer, lavoratori d’ufficio, studenti e persino utenti casual di PC.

Offre opportunità senza precedenti per migliorare la produttività degli utenti dei più di 100 milioni di PC e workstation Windows che sono alimentati da GPU RTX. E la tecnologia NVIDIA RTX rende ancora più facile per gli sviluppatori creare applicazioni di intelligenza artificiale per cambiare il modo in cui le persone usano i computer.

Le nuove ottimizzazioni, modelli e risorse annunciate al Microsoft Ignite aiuteranno gli sviluppatori a fornire nuove esperienze per gli utenti finali in modo più rapido.

Un prossimo aggiornamento a TensorRT-LLM – un software open source che aumenta le prestazioni dell’IA – aggiungerà il supporto per nuovi grandi modelli di linguaggio e renderà i carichi di lavoro dell’IA più impegnativi accessibili su desktop e laptop con GPU RTX a partire da 8 GB di VRAM.

TensorRT-LLM per Windows presto sarà compatibile con l’API di chat di OpenAI tramite un nuovo wrapper. Ciò consentirà a centinaia di progetti e applicazioni degli sviluppatori di funzionare localmente su un PC con RTX, invece che nel cloud, in modo da poter conservare i dati privati e proprietari su PC Windows 11.

La creazione personalizzata di IA generativa richiede tempo ed energia per mantenere i progetti. Il processo può diventare incredibilmente complesso e richiedere molto tempo, soprattutto quando si cerca di collaborare e distribuire su più ambienti e piattaforme.

AI Workbench è un toolkit unificato e facile da usare che consente agli sviluppatori di creare, testare e personalizzare rapidamente modelli di IA generativi preaddestrati e LLM su un PC o una workstation. Fornisce agli sviluppatori una piattaforma unica per organizzare i loro progetti di IA e tarare i modelli per casi d’uso specifici.

Ciò consente una collaborazione e distribuzione senza soluzione di continuità per gli sviluppatori al fine di creare modelli di IA generativi economici e scalabili rapidamente. Iscriviti alla lista di accesso anticipato per essere tra i primi a ottenere accesso a questa iniziativa crescente e ricevere aggiornamenti futuri.

Per supportare gli sviluppatori di IA, NVIDIA e Microsoft rilasceranno potenziamenti DirectML per accelerare due dei modelli di IA fondamentali più popolari: Llama 2 e Stable Diffusion. Ora gli sviluppatori hanno più opzioni per la distribuzione multiprodotto, oltre a definire un nuovo standard di prestazioni.

IA portatile

Il mese scorso, NVIDIA ha annunciato TensorRT-LLM per Windows, una libreria per accelerare l’inferenza LLM.

La prossima versione di TensorRT-LLM, v0.6.0, che arriverà questo mese, migliorerà le prestazioni dell’inferenza, fino a 5 volte più veloce, e consentirà il supporto per altri LLM popolari, inclusi il nuovo Mistral 7B e Nemotron-3 8B. Le versioni di questi LLM funzioneranno su tutte le GPU GeForce RTX 30 Series e 40 Series con 8 GB di RAM o più, rendendo accessibili anche su alcuni dei dispositivi Windows più portatili le capacità LLM locali veloci e precise.

TensorRT-LLM V0.6 Windows Perf Chart
Fino al 5X di prestazioni con il nuovo TensorRT-LLM v0.6.0.

La nuova release di TensorRT-LLM sarà disponibile per l’installazione nel repository GitHub di /NVIDIA/TensorRT-LLM. I modelli ottimizzati saranno disponibili su ngc.nvidia.com.

Conversare con sicurezza

Gli sviluppatori e gli appassionati di tutto il mondo utilizzano l’API di chat di OpenAI per una vasta gamma di applicazioni: dalla sintesi dei contenuti web e dalle bozze di documenti ed e-mail all’analisi e alla visualizzazione dei dati e alla creazione di presentazioni.

Una sfida con questi AI basati su cloud è che richiedono agli utenti di caricare i propri dati di input, rendendoli impraticabili per dati privati o proprietari o per lavorare con grandi set di dati.

Per affrontare questa sfida, NVIDIA sta presto abilitando TensorRT-LLM per Windows per offrire un’interfaccia API simile alla ChatAPI ampiamente popolare di OpenAI, attraverso un nuovo wrapper, offrendo un workflow simile agli sviluppatori che stanno progettando modelli e applicazioni da eseguire in locale su un PC con RTX o in cloud. Cambiando solo una o due righe di codice, centinaia di progetti e applicazioni sviluppati con intelligenza artificiale possono ora beneficiare di un’IA rapida e locale. Gli utenti possono conservare i propri dati sui propri PC senza preoccuparsi di caricare set di dati nel cloud.

Forse la parte migliore è che molti di questi progetti e applicazioni sono open source, rendendo facile per gli sviluppatori sfruttare ed estendere le loro possibilità per promuovere l’adozione di IA generativa su Windows, alimentata da RTX.

Il wrapper funzionerà con ogni LLM ottimizzato per TensorRT-LLM (ad esempio, Llama 2, Mistral e NV LLM) ed è stato rilasciato come progetto di riferimento su GitHub, insieme ad altre risorse per sviluppatori per lavorare con LLM su RTX.

Accelerazione del Modello

Gli sviluppatori possono ora sfruttare modelli di IA all’avanguardia e distribuirli con un’API cross-vendor. Come parte di un impegno continuo per fornire poteri agli sviluppatori, NVIDIA e Microsoft hanno collaborato per accelerare Llama su RTX tramite l’API DirectML.

Basandosi sugli annunci delle prestazioni di inferenza più veloci per questi modelli annunciati il mese scorso, questa nuova opzione per la distribuzione cross-vendor rende più facile che mai portare le capacità di AI al PC.

Gli sviluppatori e gli appassionati possono sperimentare le ultime ottimizzazioni scaricando l’ultima versione di ONNX runtime e seguendo le istruzioni di installazione di Microsoft, e installando il driver più recente di NVIDIA, che sarà disponibile il 21 novembre.

Queste nuove ottimizzazioni, modelli e risorse accelereranno lo sviluppo e il rilascio di funzionalità e applicazioni di AI per i 100 milioni di PC RTX in tutto il mondo, unendosi ai più di 400 partner che distribuiscono già app e giochi basati sull’AI accelerati da GPU RTX.

Man mano che i modelli diventano ancora più accessibili e gli sviluppatori portano funzionalità di IA generativa sempre più avanzate sui PC Windows con RTX, le GPU RTX saranno fondamentali per consentire agli utenti di sfruttare questa potente tecnologia.