Costruire un Classificatore di Tossicità dei Commenti utilizzando i Modelli Transformer di Hugging Face

Costruire un Classificatore di Tossicità dei Commenti con i Modelli Transformer di Hugging Face

Recuperare il ritardo su NLP e LLM (Parte I)

Foto di Brett Jordan su Unsplash

Introduzione

Come Data Scientist, non ho mai avuto l’opportunità di esplorare adeguatamente gli ultimi progressi nel Natural Language Processing. Con l’estate e il nuovo boom dei Large Language Models dall’inizio dell’anno, ho deciso che era giunto il momento di approfondire il campo e intraprendere alcuni mini-progetti. Dopotutto, non c’è modo migliore di imparare se non praticando.

Man mano che il mio viaggio iniziava, mi sono reso conto che era complicato trovare contenuti che prendessero il lettore per mano e procedessero, passo dopo passo, verso una comprensione approfondita dei nuovi modelli NLP con progetti concreti. Ecco perché ho deciso di iniziare questa nuova serie di articoli.

Costruire un classificatore di tossicità dei commenti utilizzando i modelli Transformer di HuggingFace

In questo primo articolo, approfondiremo la costruzione di un classificatore di tossicità dei commenti. Questo progetto è ispirato alla competizione “Jigsaw Rate Severity of Toxic Comments” che si è svolta su Kaggle l’anno scorso.

Lo scopo della competizione era quello di costruire un modello con la capacità di determinare quale commento (tra due commenti forniti in input) fosse il più tossico.

Per farlo, il modello attribuirà a ogni commento passato in input un punteggio, che determina la sua tossicità relativa.

Cosa tratterà questo articolo

In questo articolo, addestreremo il nostro primo classificatore NLP utilizzando Pytorch e i modelli di Hugging Face transformers. Non entrerò nei dettagli su come funzionano i transformers, ma mi concentrerò più su dettagli e implementazioni pratiche e introdurrò alcuni concetti che saranno utili per gli articoli successivi della serie.

In particolare, vedremo:

  • Come scaricare un modello da Hugging Face Hub
  • Come personalizzare e utilizzare un Encoder
  • Costruire e addestrare un ranker Pytorch utilizzando uno dei modelli di Hugging Face

Questo articolo è rivolto direttamente ai data scientist che desiderano migliorare le loro competenze in NLP da un punto di vista pratico. Non farò molto…