Ray brilla con NVIDIA AI Collaborazione con Anyscale per aiutare gli sviluppatori a costruire, ottimizzare, addestrare e scalare LLM di produzione

Ray brilla con NVIDIA AI Collaborazione con Anyscale per LLM di produzione

Lo sviluppo di modelli di grandi dimensioni nel campo del linguaggio sta per raggiungere velocità supersoniche grazie alla collaborazione tra NVIDIA e Anyscale.

Alla sua conferenza annuale per sviluppatori Ray Summit, Anyscale – l’azienda dietro il framework di calcolo scalabile open source in rapida crescita – ha annunciato oggi che sta portando l’IA di NVIDIA nell’open source di Ray e nella piattaforma Anyscale. Sarà anche integrato in Anyscale Endpoints, un nuovo servizio annunciato oggi che rende semplice per gli sviluppatori di applicazioni incorporare in modo conveniente LLM (Large Language Models) nelle loro applicazioni utilizzando i modelli open source più popolari.

Queste integrazioni possono velocizzare notevolmente lo sviluppo e l’efficienza dell’IA generativa, aumentando al contempo la sicurezza per l’IA di produzione, dai LLM proprietari a modelli aperti come Code Llama, Falcon, Llama 2, SDXL e altri ancora.

Gli sviluppatori avranno la flessibilità di distribuire il software NVIDIA open source con Ray o optare per il software NVIDIA AI Enterprise in esecuzione sulla piattaforma Anyscale per un’implementazione di produzione completamente supportata e sicura.

Ray e la piattaforma Anyscale sono ampiamente utilizzati dagli sviluppatori che costruiscono LLM avanzati per applicazioni di IA generativa in grado di alimentare chatbot intelligenti, copiloti di codifica e potenti strumenti di ricerca e sintesi.

NVIDIA e Anyscale offrono velocità, risparmi ed efficienza

Le applicazioni di IA generativa stanno catturando l’attenzione delle aziende di tutto il mondo. La messa a punto, l’aggiunta e l’esecuzione di LLM richiedono un investimento e una competenza significativi. Insieme, NVIDIA e Anyscale possono contribuire a ridurre i costi e la complessità dello sviluppo e della distribuzione di IA generativa con una serie di integrazioni di applicazioni.

NVIDIA TensorRT-LLM, un nuovo software open source annunciato la scorsa settimana, supporterà le offerte di Anyscale per potenziare le prestazioni e l’efficienza dei LLM per offrire risparmi di costi. Supportato anche nella piattaforma software NVIDIA AI Enterprise, Tensor-RT LLM scala automaticamente l’inferenza per eseguire modelli in parallelo su più GPU, il che può fornire prestazioni fino a 8 volte superiori quando si eseguono su GPU NVIDIA H100 Tensor Core, rispetto alle GPU di generazione precedente.

TensorRT-LLM scala automaticamente l’inferenza per eseguire modelli in parallelo su più GPU e include kernel GPU personalizzati e ottimizzazioni per una vasta gamma di modelli LLM popolari. Implementa anche il nuovo formato numerico FP8 disponibile nell’Engine del processore di trasformazione GPU NVIDIA H100 Tensor Core e offre un’interfaccia Python facile da usare e personalizzabile.

Il software NVIDIA Triton Inference Server supporta l’inferenza su cloud, data center, edge e dispositivi embedded su GPU, CPU e altri processori. La sua integrazione può consentire agli sviluppatori di Ray di aumentare l’efficienza durante la distribuzione di modelli di IA da più framework di deep learning e machine learning, tra cui TensorRT, TensorFlow, PyTorch, ONNX, OpenVINO, Python, RAPIDS XGBoost e altri ancora.

Con il framework NVIDIA NeMo, gli utenti di Ray saranno in grado di ottimizzare e personalizzare facilmente i LLM con i dati aziendali, aprendo la strada a LLM in grado di comprendere le offerte uniche delle singole aziende.

NeMo è un framework end-to-end e nativo del cloud per costruire, personalizzare e distribuire modelli di IA generativa ovunque. Offre framework di formazione e inferenza, toolkit di sicurezza, strumenti di cura dei dati e modelli pre-addestrati, offrendo alle aziende un modo facile, conveniente e veloce per adottare l’IA generativa.

Opzioni per IA open source o di produzione completamente supportata

Ray open source e la piattaforma Anyscale consentono agli sviluppatori di passare agevolmente dall’open source alla distribuzione di IA di produzione su larga scala nel cloud.

La piattaforma Anyscale fornisce calcolo unificato completamente gestito e pronto per l’impresa, che facilita la creazione, la distribuzione e la gestione di applicazioni AI e Python scalabili utilizzando Ray, aiutando i clienti a portare più velocemente sul mercato i prodotti di IA a costi significativamente inferiori.

Sia che gli sviluppatori utilizzino Ray open source che la piattaforma supportata Anyscale, la funzionalità principale di Anyscale li aiuta a orchestrare facilmente i carichi di lavoro LLM. L’integrazione di NVIDIA AI può aiutare gli sviluppatori a creare, formare, ottimizzare e scalare l’IA con ancora maggiore efficienza.

Ray e la piattaforma Anyscale funzionano su calcolo accelerato dai principali cloud, con l’opzione di eseguire su calcolo ibrido o multi-cloud. Ciò aiuta gli sviluppatori a scalare facilmente man mano che hanno bisogno di più risorse di calcolo per alimentare una distribuzione di LLM di successo.

La collaborazione consentirà anche agli sviluppatori di iniziare a creare modelli sulle loro workstation tramite NVIDIA AI Workbench e di scalare facilmente su calcolo accelerato ibrido o multi-cloud quando è il momento di passare alla produzione.

L’integrazione di NVIDIA AI con Anyscale è in fase di sviluppo e si prevede che sarà disponibile entro la fine dell’anno.

Gli sviluppatori possono iscriversi per ricevere le ultime notizie su questa integrazione e una valutazione gratuita di 90 giorni di NVIDIA AI Enterprise.

Per saperne di più, partecipa al Ray Summit a San Francisco questa settimana o guarda il video dimostrativo qui sotto.

Vedi questa nota relativa alla roadmap del software di NVIDIA.