Performance impressionante modelli di lingua di grandi dimensioni fino a 4 volte più veloci su RTX con TensorRT-LLM per Windows

Performance straordinaria modelli di linguaggio di grandi dimensioni fino a 4 volte più veloci su RTX con TensorRT-LLM per Windows

L’IA generativa è una delle tendenze più importanti nella storia dell’informatica personale, portando avanzamenti nel gaming, creatività, video, produttività, sviluppo e altro ancora.

E GeForce RTX e le GPU NVIDIA RTX, che sono dotate di processori AI dedicati chiamati Tensor Core, stanno portando il potere dell’IA generativa nativamente a oltre 100 milioni di PC e workstation Windows.

Oggi, l’IA generativa su PC è fino a 4 volte più veloce tramite TensorRT-LLM per Windows, una libreria open-source che accelera le prestazioni di inferenza per i più recenti modelli di grandi dimensioni di IA del linguaggio, come Llama 2 e Code Llama. Questo fa seguito all’annuncio di TensorRT-LLM per i centri di dati il mese scorso.

NVIDIA ha inoltre rilasciato strumenti per aiutare gli sviluppatori ad accelerare i loro LLM, tra cui script che ottimizzano modelli personalizzati con TensorRT-LLM, modelli open-source ottimizzati per TensorRT e un progetto di riferimento per gli sviluppatori che mostra sia la velocità che la qualità delle risposte LLM.

L’accelerazione di TensorRT è ora disponibili per Stable Diffusion nella popolare interfaccia utente Web di Automatic1111 distribution. Accelera il modello di diffusione di IA generativa fino a 2 volte rispetto alla precedente implementazione più veloce.

Inoltre, la versione 1.5 della RTX Video Super Resolution (VSR) è disponibile come parte del rilascio odierno del Game Ready Driver — e sarà disponibile nel prossimo NVIDIA Studio Driver, che sarà rilasciato all’inizio del prossimo mese.

Potenziare i LLM con TensorRT

I LLM stanno aumentando la produttività — interagendo in chat, riassumendo documenti e contenuti web, scrivendo email e blog — e sono al centro delle nuove pipeline di AI e altri software che possono analizzare automaticamente i dati e generare una vasta gamma di contenuti.

TensorRT-LLM, una libreria per l’accelerazione dell’inferenza dei LLM, offre agli sviluppatori e agli utenti finali il vantaggio di LLM che possono ora operare fino a 4 volte più velocemente sui PC Windows con potenza RTX.

Con batch size più alti, questa accelerazione migliora significativamente l’esperienza per utilizzi LLM più sofisticati — come assistenti di scrittura e codifica che producono più risultati di auto-completamento unici contemporaneamente. Il risultato è una migliore performance e una qualità migliorata che consente agli utenti di selezionare il migliore.

L’accelerazione di TensorRT-LLM è anche benefica quando si integra la capacità dei LLM con altre tecnologie, come nel caso di generazione potenziata da retrieval (RAG), in cui un LLM viene abbinato a una libreria di vettori o un database di vettori. RAG consente al LLM di fornire risposte basate su un dataset specifico, come le email degli utenti o gli articoli su un sito web, per fornire risposte più mirate.

Per mostrare questo in termini pratici, quando è stata posta la domanda “Come genera NVIDIA ACE risposte emotive?” al modello di base LLaMa 2, è stata restituita una risposta poco utile.

Risposte migliori, più veloci.

Al contrario, utilizzando RAG con articoli recenti su GeForce news caricati in una libreria di vettori e collegati allo stesso modello Llama 2, è stata restituita non solo la risposta corretta — usando NeMo SteerLM — ma è stata fornita molto più velocemente con l’accelerazione di TensorRT-LLM. Questa combinazione di velocità ed efficienza offre agli utenti soluzioni più intelligenti.

TensorRT-LLM sarà presto disponibile per il download dal sito Developer NVIDIA. Modelli open source ottimizzati per TensorRT e la demo RAG con notizie su GeForce come progetto campione sono disponibili su ngc.nvidia.com e GitHub.com/NVIDIA.

Accelerazione Automatica

I modelli di diffusione, come la Diffusione Stabile, vengono utilizzati per immaginare e creare opere d’arte stupefacenti e innovative. La generazione di immagini è un processo iterativo che può richiedere centinaia di cicli per ottenere l’output perfetto. Quando viene eseguito su un computer poco potente, questa iterazione può comportare ore di attesa.

TensorRT è progettato per accelerare i modelli di intelligenza artificiale attraverso la fusione dei layer, la calibrazione di precisione, l’auto-tuning del kernel e altre capacità che migliorano significativamente l’efficienza e la velocità dell’inferenza. Questo lo rende indispensabile per le applicazioni in tempo reale e per i compiti intensivi dal punto di vista delle risorse.

E ora, TensorRT raddoppia la velocità di Diffusione Stabile.

Compatibile con la distribuzione più popolare, WebUI di Automatic1111, la Diffusione Stabile con accelerazione TensorRT aiuta gli utenti a iterare più velocemente e a passare meno tempo in attesa del computer, fornendo un’immagine finale più velocemente. Su una GeForce RTX 4090, funziona 7 volte più veloce della migliore implementazione su Mac con Apple M2 Ultra. L’estensione è disponibile per il download oggi stesso.

La demo di TensorRT di un’interfaccia di comunicazione diffusa e stabile fornisce agli sviluppatori un’implementazione di riferimento su come preparare i modelli di diffusione e accelerarli utilizzando TensorRT. Questo è il punto di partenza per gli sviluppatori interessati a migliorare una pipeline di diffusione e a portare inferenza veloce come un fulmine nelle applicazioni.

Video da brivido

L’IA sta migliorando le esperienze quotidiane su PC per tutti gli utenti. Lo streaming video – da qualsiasi fonte, come YouTube, Twitch, Prime Video, Disney+ e molti altri – è una delle attività più popolari su un PC. Grazie all’IA e a RTX, sta ricevendo un altro aggiornamento in termini di qualità delle immagini.

RTX VSR è una svolta nel processo AI di elaborazione di pixel che migliora la qualità dei contenuti video trasmessi riducendo o eliminando gli artefatti causati dalla compressione video. Migliora anche i bordi e i dettagli.

Disponibile ora, RTX VSR versione 1.5 migliora ulteriormente la qualità visiva con modelli aggiornati, de-artefatta i contenuti riprodotti alla loro risoluzione nativa e aggiunge il supporto per le GPU RTX basate sull’architettura NVIDIA Turing, sia per le GPU RTX professionali che per le GPU GeForce RTX della serie 20.

Il ritraining del modello di intelligenza artificiale VSR ha contribuito a imparare a identificare in modo accurato la differenza tra i dettagli sottili e gli artefatti di compressione. Di conseguenza, le immagini migliorate dall’IA conservano in modo più accurato i dettagli durante il processo di upscaling. I dettagli più fini sono più visibili e l’immagine generale appare più nitida e definita.

RTX Video Super Resolution v1.5 migliora i dettagli e la nitidezza.

Novità nella versione 1.5 è la possibilità di de-artefatte video riprodotti alla risoluzione nativa del display. La versione originale migliorava solo i video quando venivano upscalati. Ora, ad esempio, un video 1080p trasmesso su un display a risoluzione 1080p avrà un aspetto più fluido, poiché gli artefatti pesanti sono ridotti.

RTX VSR ora de-artefatta i video riprodotti alla risoluzione nativa.

RTX VSR 1.5 è disponibile oggi per tutti gli utenti RTX nell’ultima versione del driver Game Ready. Sarà disponibile nella prossima versione del driver NVIDIA Studio, prevista per l’inizio del prossimo mese.

RTX VSR è uno dei software NVIDIA, strumenti, librerie e SDK — come quelli menzionati in precedenza, oltre a DLSS, Omniverse, AI Workbench e altri — che hanno contribuito a portare oltre 400 app e giochi abilitati dall’intelligenza artificiale ai consumatori.

L’era dell’intelligenza artificiale è arrivata. E RTX sta potenziando tutto il processo della sua evoluzione.