Accelerare oltre 130.000 modelli di Hugging Face con ONNX Runtime

Velocizzare oltre 130.000 modelli di Hugging Face con ONNX Runtime

Che cos’è ONNX Runtime?

ONNX Runtime è un’utility di machine learning multi-piattaforma che può essere utilizzata per accelerare una vasta gamma di modelli, in particolare quelli con supporto ONNX.

Supporto di Hugging Face per ONNX Runtime

Su Hugging Face ci sono oltre 130.000 modelli supportati da ONNX, una comunità open source che consente agli utenti di costruire, addestrare e distribuire centinaia di migliaia di modelli di machine learning disponibili pubblicamente. Questi modelli supportati da ONNX, che includono molti modelli di linguaggio di grandi dimensioni (LLM) e modelli cloud sempre più popolari, possono sfruttare ONNX Runtime per migliorare le prestazioni, insieme ad altri vantaggi. Ad esempio, utilizzando ONNX Runtime per accelerare il modello whisper-tiny, è possibile migliorare la latenza media per inferenza, ottenendo un guadagno fino al 74,30% rispetto a PyTorch. ONNX Runtime collabora strettamente con Hugging Face per garantire il supporto dei modelli più popolari presenti sul sito. In totale, ONNX Runtime supporta oltre 90 architetture di modelli di Hugging Face, incluse le 11 architetture più popolari (la popolarità è determinata dal numero corrispondente di modelli caricati su Hugging Face Hub):

Scopri di più

Per saperne di più sull’accelerazione dei modelli di Hugging Face con ONNX Runtime, leggi il nostro recente articolo sul Microsoft Open Source Blog.