Adattamento di dominio di un grande modello linguistico
Trasformazione di un Vasto Modello Linguistico per un Dominio Specifico
Adattare un modello pre-addestrato a un nuovo dominio usando HuggingFace
I modelli di linguaggio di grandi dimensioni (LLM) come BERT sono di solito pre-addestrati su corpora di dominio generale come Wikipedia e BookCorpus. Se li applichiamo a domini più specializzati come quello medico, spesso si verifica una diminuzione delle prestazioni rispetto ai modelli adattati per quei domini.
In questo articolo, esploreremo come adattare un LLM pre-addestrato come Deberta base al dominio medico utilizzando la libreria Transformers di HuggingFace. In particolare, copriremo una tecnica efficace chiamata pre-addestramento intermedio, in cui effettuiamo ulteriore pre-addestramento del LLM su dati provenienti dal nostro dominio di destinazione. Questo adatta il modello al nuovo dominio e ne migliora le prestazioni.
Questa è una tecnica semplice ma efficace per sintonizzare i LLM sul tuo dominio e ottenere miglioramenti significativi nelle prestazioni delle attività successive.
Cominciamo.
- Crea una scarpa da corsa migliore (o qualsiasi prodotto) per 1 $ con l’IA generativa
- 7 Passaggi per Eseguire un Piccolo Modello di Lingua su una CPU Locale
- Come l’Intelligenza Artificiale può aiutare a ridurre i costi dell’assistenza sanitaria?
Passo 1: I Dati
Il primo passo in ogni progetto è preparare i dati. Poiché il nostro dataset è nel dominio medico, contiene i seguenti campi e molti altri:
Mettere qui l’elenco completo dei campi è impossibile, poiché ci sono molti campi. Ma anche questo sguardo ai campi esistenti ci aiuta a formare la sequenza di input per un LLM.
Il primo punto da tenere presente è che l’input deve essere una sequenza poiché i LLM leggono l’input come sequenze di testo.
Per formare questa sequenza, possiamo inserire tag speciali per indicare al LLM quale informazione seguirà. Considera il seguente esempio: <patient>nome:John, cognome:Doer, ID paziente:1234, età:34</patient>
, il tag <patient>
è un tag speciale che indica al LLM che ci saranno informazioni su un paziente a seguire.
Quindi formiamo la sequenza di input come segue:
Come puoi vedere, abbiamo inserito quattro tag:
<patient> </patient>
: per contenere…