Adattamento di dominio di un grande modello linguistico

Trasformazione di un Vasto Modello Linguistico per un Dominio Specifico

Adattare un modello pre-addestrato a un nuovo dominio usando HuggingFace

Immagine da unsplash

I modelli di linguaggio di grandi dimensioni (LLM) come BERT sono di solito pre-addestrati su corpora di dominio generale come Wikipedia e BookCorpus. Se li applichiamo a domini più specializzati come quello medico, spesso si verifica una diminuzione delle prestazioni rispetto ai modelli adattati per quei domini.

In questo articolo, esploreremo come adattare un LLM pre-addestrato come Deberta base al dominio medico utilizzando la libreria Transformers di HuggingFace. In particolare, copriremo una tecnica efficace chiamata pre-addestramento intermedio, in cui effettuiamo ulteriore pre-addestramento del LLM su dati provenienti dal nostro dominio di destinazione. Questo adatta il modello al nuovo dominio e ne migliora le prestazioni.

Questa è una tecnica semplice ma efficace per sintonizzare i LLM sul tuo dominio e ottenere miglioramenti significativi nelle prestazioni delle attività successive.

Cominciamo.

Passo 1: I Dati

Il primo passo in ogni progetto è preparare i dati. Poiché il nostro dataset è nel dominio medico, contiene i seguenti campi e molti altri:

immagine di autore

Mettere qui l’elenco completo dei campi è impossibile, poiché ci sono molti campi. Ma anche questo sguardo ai campi esistenti ci aiuta a formare la sequenza di input per un LLM.

Il primo punto da tenere presente è che l’input deve essere una sequenza poiché i LLM leggono l’input come sequenze di testo.

Per formare questa sequenza, possiamo inserire tag speciali per indicare al LLM quale informazione seguirà. Considera il seguente esempio: <patient>nome:John, cognome:Doer, ID paziente:1234, età:34</patient>, il tag <patient> è un tag speciale che indica al LLM che ci saranno informazioni su un paziente a seguire.

Quindi formiamo la sequenza di input come segue:

Immagine di autore

Come puoi vedere, abbiamo inserito quattro tag:

  1. <patient> </patient>: per contenere…