Incontra TensorRT-LLM una libreria open-source che accelera e ottimizza le prestazioni di inferenza sui più recenti LLM su GPU NVIDIA Tensor Core.

TensorRT-LLM è una libreria open-source per l'accelerazione e l'ottimizzazione dell'inferenza su GPU NVIDIA Tensor Core.

L’intelligenza artificiale (IA) dei modelli di linguaggio di grandi dimensioni (LLMs) può generare testo, tradurre lingue, scrivere vari tipi di materiale creativo e fornire risposte utili alle tue domande. Tuttavia, i LLM presentano alcuni problemi, come ad esempio il fatto che vengono addestrati su grandi set di dati di testo e codice che possono contenere pregiudizi. I risultati prodotti dai LLM possono riflettere questi pregiudizi, rafforzando stereotipi negativi e diffondendo informazioni false. A volte, i LLM produrranno scritture che non hanno basi nella realtà. L’allucinazione descrive queste esperienze. La lettura di testo allucinatorio può portare a fraintendimenti e inferenze errate. Comprendere il funzionamento interno dei LLM richiede lavoro. A causa di ciò, è difficile comprendere il ragionamento che sta alla base delle azioni dei modelli. Ciò può causare problemi in contesti in cui l’apertura e la responsabilità sono cruciali, come i settori medico e finanziario. Addestrare e utilizzare i LLM richiede una grande quantità di potenza di calcolo. Ciò può renderli inaccessibili a molte piccole aziende e organizzazioni non profit. Spam, email di phishing e notizie false sono esempi di informazioni errate che possono essere generate utilizzando i LLM. A causa di ciò, sia gli utenti che le aziende possono essere messi in pericolo.

Ricercatori di NVIDIA hanno collaborato con leader del settore come Meta, Anyscale, Cohere, Deci, Grammarly, Mistral AI, MosaicML (ora parte di Databricks), OctoML, Tabnine e Together AI per accelerare e perfezionare l’inferenza dei LLM. Queste migliorie saranno incluse nella prossima versione del software open-source NVIDIA TensorRT-LLM. TensorRT-LLM è un compilatore di deep learning che utilizza le GPU NVIDIA per offrire prestazioni all’avanguardia grazie ai suoi kernel ottimizzati, alle fasi di pre e post-elaborazione e alle primitive di comunicazione multi-GPU/multi-nodo. Gli sviluppatori possono sperimentare nuovi LLM senza necessità di una conoscenza approfondita di C++ o NVIDIA CUDA, ottenendo prestazioni di alto livello e opzioni di personalizzazione rapida. Con la sua API Python open-source e modulare, TensorRT-LLM semplifica la definizione, l’ottimizzazione e l’esecuzione di nuove architetture e miglioramenti man mano che i LLM si sviluppano.

Sfruttando le ultime GPU per data center di NVIDIA, TensorRT-LLM punta ad aumentare notevolmente l’efficienza dei LLM riducendo al contempo i costi. Per la creazione, l’ottimizzazione e l’esecuzione dei LLM per l’inferenza in produzione, fornisce un’API Python open-source semplice che racchiude il compilatore di deep learning TensorRT, i kernel ottimizzati di FasterTransformer, le fasi di pre e post-elaborazione e la comunicazione multi-GPU/multi-nodo.

TensorRT-LLM consente una maggiore varietà di applicazioni per i LLM. Ora che abbiamo modelli con 70 miliardi di parametri come il Llama 2 di Meta e il Falcon 180B, un approccio standardizzato non è più pratico. Le prestazioni in tempo reale di tali modelli dipendono tipicamente dalla configurazione multi-GPU e dalla complessa coordinazione. TensorRT-LLM semplifica questo processo e elimina la necessità di frammentazione e riorganizzazione manuale da parte degli sviluppatori mediante la parallelizzazione dei tensori che distribuisce le matrici di pesi tra i dispositivi.

L’ottimizzazione della suddivisione dei carichi di lavoro in volo è un’altra caratteristica degna di nota, progettata per gestire efficacemente i carichi di lavoro estremamente fluttuanti tipici delle applicazioni dei LLM. Questa funzione consente l’esecuzione parallela dinamica, che massimizza l’utilizzo delle GPU per compiti come l’interazione domanda-risposta nei chatbot e la sintesi dei documenti. Dato l’aumento delle dimensioni e dello spettro delle implementazioni di intelligenza artificiale, le aziende possono prevedere una riduzione del costo totale di proprietà (TCO).

I risultati in termini di prestazioni sono straordinari. Le prestazioni sui benchmark mostrano un aumento di 8 volte nei compiti come la sintesi degli articoli quando si utilizza TensorRT-LLM con NVIDIA H100 rispetto all’A100.

Figura 1. GPT-J-6B A100 rispetto a H100 con e senza TensorRT-LLM | Sintesi del testo, lunghezza variabile I/O, dataset CNN / DailyMail | A100 FP16 PyTorch modalità eager | H100 FP8 | H100 FP8, batching in volo, TensorRT-LLM | Fonte immagine: https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

TensorRT-LLM può aumentare le prestazioni di inferenza di 4,6 volte rispetto alle GPU A100 su Llama 2, un modello di linguaggio ampiamente utilizzato rilasciato di recente da Meta e utilizzato da molte aziende che desiderano implementare l’IA generativa.

Figura 2. Llama 2 70B, A100 confrontato con H100 con e senza TensorRT-LLM | Riassunto del testo, lunghezza variabile I/O, dataset CNN / DailyMail | A100 FP16 PyTorch eager mode | H100 FP8 | H100 FP8, batching in volo, TensorRT-LLM | Fonte dell’immagine: https://developer.nvidia.com/blog/nvidia-tensorrt-llm-supercharges-large-language-model-inference-on-nvidia-h100-gpus/

In sintesi, gli LLM si stanno sviluppando rapidamente. Ogni giorno porta un nuovo contributo all’ecosistema in continua espansione dei progetti di modelli. Di conseguenza, modelli più grandi aprono nuove possibilità e casi d’uso, aumentando l’adozione in tutti i settori. Il data center sta evolvendo grazie all’inferenza degli LLM. Il TCO migliora per le aziende grazie a prestazioni più elevate con maggiore precisione. Migliori esperienze per i clienti, rese possibili attraverso cambiamenti di modello, portano a un aumento delle vendite e dei profitti. Ci sono numerosi fattori aggiuntivi da considerare quando si pianificano iniziative di distribuzione dell’inferenza per ottenere il massimo dai moderni LLM. Raramente l’ottimizzazione avviene da sola. Gli utenti dovrebbero pensare al parallelismo, alle pipeline end-to-end e ai metodi di programmazione sofisticati durante il processo di ottimizzazione. Hanno bisogno di un sistema informatico in grado di gestire dati con gradi di precisione variabili senza sacrificare l’accuratezza. TensorRT-LLM è un’API Python semplice e open-source per la creazione, l’ottimizzazione e l’esecuzione degli LLM per l’inferenza in produzione. Include il compilatore di deep learning di TensorRT, kernel ottimizzati, pre- e post-elaborazione e comunicazione multi-GPU/multi-nodo.