Converti Transformers in ONNX con Hugging Face Optimum

Converti con Optimum di Hugging Face i Transformers in formato ONNX.

Ogni giorno vengono caricati centinaia di esperimenti e modelli di Transformers nell’Hugging Face Hub. Gli ingegneri e gli studenti di machine learning che conducono questi esperimenti utilizzano una varietà di framework come PyTorch, TensorFlow/Keras o altri. Questi modelli sono già utilizzati da migliaia di aziende e costituiscono la base dei prodotti basati sull’IA.

Se si desidera utilizzare modelli Transformers in ambienti di produzione, si consiglia di esportarli prima in un formato serializzato che possa essere caricato, ottimizzato ed eseguito su runtime e hardware specializzati.

In questa guida, imparerai:

  1. Cosa è ONNX?
  2. Cosa è Hugging Face Optimum?
  3. Quali architetture di Transformers sono supportate?
  4. Come posso convertire un modello Transformers (BERT) in ONNX?
  5. Cosa succede dopo?

Cominciamo! 🚀


Se sei interessato ad ottimizzare i tuoi modelli per eseguirli con massima efficienza, dai un’occhiata alla libreria 🤗 Optimum.

5. Cosa succede dopo?

Dal momento che hai convertito con successo il tuo modello Transformers in ONNX, hai ora a disposizione l’intero set di strumenti di ottimizzazione e quantizzazione. I possibili passaggi successivi possono essere:

  • Utilizzare il modello ONNX per la inferenza accelerata con Optimum e Transformers Pipelines
  • Applicare la quantizzazione statica al tuo modello per migliorare la latenza di circa 3 volte
  • Utilizzare ONNX runtime per l’addestramento
  • Convertire il tuo modello ONNX in TensorRT per migliorare le prestazioni della GPU

Se sei interessato ad ottimizzare i tuoi modelli per eseguirli con massima efficienza, dai un’occhiata alla libreria 🤗 Optimum.


Grazie per aver letto! Se hai domande, non esitare a contattarmi tramite Github o sul forum. Puoi anche connetterti con me su Twitter o LinkedIn.