Sfruttare il potenziale dei LLM specifici del dominio

Exploiting the potential of domain-specific LLMs

Introduzione

Le Large Language Models (LLM) hanno cambiato tutto il mondo. Specialmente nella comunità di Intelligenza Artificiale, questo è un enorme passo in avanti. Costruire un sistema in grado di comprendere e rispondere a qualsiasi testo era impensabile qualche anno fa. Tuttavia, queste capacità comportano una mancanza di profondità. Gli LLM generalisti sono un po’ bravi in tutto ma maestri in niente. Per i settori che richiedono profondità e precisione, difetti come le allucinazioni possono essere costosi. Ciò significa che settori come la medicina, la finanza, l’ingegneria, il legale, ecc., non potranno mai beneficiare degli LLM? Gli esperti hanno già iniziato a costruire LLM specifici per settori dedicati, che sfruttano le stesse tecniche di apprendimento auto-supervisionato e RLHF. Questo articolo esplora gli LLM specifici per settori e la loro capacità di ottenere risultati migliori.

Obiettivi di Apprendimento

Prima di approfondire i dettagli tecnici, delineiamo gli obiettivi di apprendimento di questo articolo:

  • Comprendere il concetto di Large Language Models, anche noti come LLM, e comprendere i loro punti di forza e i loro vantaggi.
  • Conoscere meglio i limiti degli LLM generalisti più popolari.
  • Scoprire cosa sono gli LLM specifici per settori e come possono aiutare a risolvere i limiti degli LLM generalisti.
  • Esplorare diverse tecniche per la costruzione di modelli di linguaggio specifici per settori con esempi che mostrano i loro benefici sulle prestazioni in settori come il legale, il completamento del codice, la finanza e la bio-medicina.

Questo articolo è stato pubblicato come parte del Data Science Blogathon.

Cosa sono gli LLM?

Un large language model, o LLM, è un sistema di intelligenza artificiale che contiene centinaia di milioni o miliardi di parametri ed è progettato per comprendere e generare testo. La formazione prevede l’esposizione del modello a molte frasi di testo tratto da internet, inclusi libri, articoli, siti web e altri materiali scritti, insegnandogli a prevedere le parole mascherate o le parole successive nelle frasi. In questo modo, il modello impara i modelli statistici e le relazioni linguistiche nel testo su cui è stato addestrato. Possono essere utilizzati per varie attività, tra cui la traduzione di lingue, la sintesi del testo, la risposta alle domande, la generazione di contenuti e altro ancora. Dall’invenzione dei transformers, sono stati costruiti e pubblicati innumerevoli LLM. Alcuni esempi di LLM recentemente popolari sono Chat GPT, GPT-4, LLAMA e Stanford Alpaca, che hanno ottenuto risultati rivoluzionari.

Punti di Forza degli LLM

Gli LLM sono diventati la soluzione di riferimento per la comprensione del linguaggio, il riconoscimento delle entità, la generazione di linguaggio e altro ancora. Le prestazioni eccellenti su set di dati di valutazione standardizzati come GLUE, Super GLUE, SQuAD e BIG riflettono questo successo. Al momento del rilascio, BERT, T5, GPT-3, PALM e GPT-4 hanno tutti fornito risultati all’avanguardia su questi test standardizzati. GPT-4 ha ottenuto un punteggio superiore a BAR e SAT rispetto a un essere umano medio. Il grafico (Figura 1) qui sotto mostra il significativo miglioramento nel benchmark GLUE dall’avvento dei large language models.

Un altro grande vantaggio dei large language models è la loro migliorata capacità multilingue. Ad esempio, il modello multilingue BERT, addestrato in 104 lingue diverse, ha mostrato ottimi risultati in zero-shot e few-shot in diverse lingue. Inoltre, il costo di sfruttare gli LLM è diventato relativamente basso. Sono state sviluppate metodologie a basso costo come il design e l’ottimizzazione dei prompt, che garantiscono che gli ingegneri possano facilmente sfruttare gli LLM esistenti a un costo contenuto. Pertanto, i large language models sono diventati l’opzione predefinita per le attività basate sul linguaggio, compresa la comprensione del linguaggio, il riconoscimento delle entità, la traduzione e altro ancora.

Limiti degli LLM Generalisti

La maggior parte degli LLM popolari, come quelli menzionati in precedenza, addestrati su risorse testuali varie provenienti dal web, libri, Wikipedia e altro ancora, vengono chiamati LLM generalisti. Sono stati sviluppati molteplici applicazioni per questi LLM che vanno dalla ricerca assistita (come Bing Chat con l’utilizzo di GPT-4, BARD con l’utilizzo di PALM) a compiti di generazione di contenuti come la scrittura di e-mail di marketing, contenuti di marketing e discorsi di vendita, fino a compiti di domande e risposte come chatbot personali, chatbot per il servizio clienti, ecc.

Anche se i modelli di intelligenza artificiale generalisti hanno dimostrato grandi abilità nella comprensione e generazione di testi su vari argomenti, a volte hanno bisogno di maggiore approfondimento e sfumature per settori specializzati. Ad esempio, “bond” è una forma di prestito nell’industria finanziaria. Tuttavia, un modello di linguaggio generale potrebbe non comprendere questa frase unica e confonderla con i bond della chimica o tra due esseri umani. D’altra parte, gli LLM specifici per settori hanno una comprensione specializzata dei termini legati a casi d’uso specifici per interpretare correttamente idee specifiche dell’industria.

Inoltre, i LLM generalisti presentano molteplici sfide legate alla privacy. Ad esempio, nel caso dei LLM medici, i dati dei pazienti sono estremamente critici e l’esposizione di tali dati confidenziali a LLM generici potrebbe violare gli accordi sulla privacy a causa di tecniche come RLHF. I LLM specifici per un dominio, d’altra parte, garantiscono un framework chiuso per evitare la divulgazione di qualsiasi dato.

Allo stesso modo, i LLM generalisti sono stati soggetti a significative allucinazioni in quanto spesso si concentrano molto sulla scrittura creativa. I LLM specifici per un dominio sono più precisi e hanno prestazioni significativamente migliori nei loro benchmark specifici del settore, come si può vedere dai casi d’uso riportati di seguito.

LLM specifici per un dominio

I LLM addestrati su dati specifici di un dominio sono chiamati LLM specifici per un dominio. Il termine “dominio” copre qualsiasi cosa, da un campo specifico come medicina, finanza, ecc., a un prodotto specifico come i commenti di YouTube. Un LLM specifico per un dominio mira a ottenere i migliori risultati nei benchmark specifici del dominio; i benchmark generici non sono più critici. Esistono molteplici modi per costruire modelli linguistici dedicati. L’approccio più popolare è il fine-tuning di un LLM esistente sui dati specifici del dominio. Tuttavia, il pre-training è la strada da seguire per i casi d’uso che mirano a ottenere prestazioni all’avanguardia in un dominio di nicchia.

Fine-Tuning vs. Pre-Training

La messa a punto di LLM esistenti per un dominio particolare può migliorare notevolmente il processo di sviluppo di modelli linguistici adattati a quel dominio. Nel fine-tuning, il modello utilizza le conoscenze codificate durante il pre-training per regolare quei parametri in base ai dati specifici del dominio. Il fine-tuning richiede meno tempo di addestramento e dati etichettati. A causa del suo costo ridotto, questo è stato l’approccio popolare per i LLM specifici per un dominio. Tuttavia, il fine-tuning potrebbe presentare gravi limitazioni delle prestazioni, specialmente per i domini di nicchia. Comprendiamo questo con un semplice esempio del modello BERT creato per la comprensione del linguaggio legale (documento). Vengono utilizzati due modelli pre-addestrati: BERT-base e Custom Legal-BERT. Come mostrato nell’immagine sottostante, un modello BERT-base messo a punto per compiti legali supera nettamente un modello Custom Legal-BERT messo a punto per compiti legali.

L’esempio sopra mostra chiaramente il potere del pre-training specifico per il dominio rispetto al fine-tuning nelle aree di nicchia come il diritto. Il fine-tuning dei modelli linguistici generici è utile per problemi linguistici più generalizzati, ma le aree di problemi di nicchia otterranno risultati molto migliori utilizzando LLM pre-addestrati. Le sezioni seguenti spiegano diversi approcci di pre-training e forniscono un esempio di ciascun approccio e del suo successo.

Pre-training specifico per il dominio

Il pre-training di un modello linguistico utilizzando un dataset di grandi dimensioni selezionato o creato con cura per essere allineato a un campo specifico è chiamato pre-training specifico per il dominio. I modelli possono apprendere conoscenze specifiche del dominio, ad esempio terminologia, concetti e sfumature uniche a quel campo, venendo addestrati su dati specifici del dominio. Ciò aiuta i modelli a comprendere le esigenze uniche di un campo, il linguaggio e il contesto, producendo previsioni o risposte più accurate e appropriate dal punto di vista contestuale. Ciò migliora la comprensione del modello del campo di destinazione e migliora la precisione delle sue capacità generative. Ci sono molteplici modi per utilizzare dati specifici del dominio per il pre-training per i LLM. Ecco alcuni di essi:

Approccio 1

Utilizzare solo dati specifici del dominio anziché dati generici per il pre-training del modello su compiti di modellizzazione del linguaggio auto-supervisionati. In questo modo, il modello acquisirà conoscenze specifiche del dominio. Il LLM specifico per il dominio può quindi essere messo a punto per il compito richiesto per costruire il modello specifico del compito. Questo è il modo più semplice per pre-addestrare un LLM specifico per un dominio. Una figura mostra il flusso per l’utilizzo solo di dati specifici del dominio per l’apprendimento auto-supervisionato per costruire il LLM specifico del dominio.

Esempio: StarCoderBase

StarCoderBase è un Large Language Model per il codice (Code LLMs) addestrato utilizzando dati con licenza permissiva da GitHub, che includono oltre 80 linguaggi di programmazione, commit Git e notebook Jupyter. È un modello da 1 trilione di token con 15 miliardi di parametri. StarCoderBase supera i modelli più significativi, tra cui PaLM, LaMDA e LLaMA, pur essendo notevolmente più piccolo, dimostrando l’utilità dei LLM specializzati nel dominio. (Immagine tratta da StarCoder Paper)

Approccio 2

Combina dati specifici del dominio con dati generali per il pre-addestramento del modello su compiti di modellazione del linguaggio auto-supervisionati. In questo modo, il modello apprenderà conoscenze specifiche del dominio e utilizzerà il pre-addestramento del linguaggio generale per migliorare la comprensione del linguaggio. Qui è mostrato un diagramma che illustra il flusso per l’utilizzo solo dei dati specifici del dominio e di corpora generali per l’apprendimento auto-supervisionato per la creazione del LLM specifico del dominio, che può poi essere messo a punto per compiti specifici del dominio.

Esempio: Bloomberg GPT

Bloomberg GPT è un LLM di dominio finanziario addestrato su un vasto archivio di dati finanziari, compreso un dataset di 363 miliardi di token di documenti finanziari in inglese. Questi dati sono stati integrati con un dataset pubblico di 345 miliardi di token per generare un corpus di addestramento massiccio di oltre 700 miliardi di token. I ricercatori hanno costruito un modello di linguaggio causale solo decoder con 50 miliardi di parametri utilizzando un sottoinsieme di questo dataset di addestramento. In particolare, il modello Bloomberg GPT ha superato di gran lunga i modelli aperti attuali di dimensioni simili su benchmark NLP specifici per il settore finanziario. Il grafico qui sotto mostra il confronto delle prestazioni di Bloomberg GPT su compiti NLP specifici per il settore finanziario. Fonte: Bloomberg.

Approccio 3

Crea o utilizza un LLM generico pre-addestrato e avvia i suoi parametri da zero. Esegui i compiti di modellazione del linguaggio auto-supervisionati utilizzando dati specifici del dominio sopra il LLM generico avviato da zero per creare il LLM specifico del dominio, che può poi essere messo a punto per il compito richiesto per creare il modello specifico del compito. Questo sfrutta il trasferimento di apprendimento dal LLM generico avviando da zero il LLM generico. Qui è mostrato un diagramma che illustra il flusso per l’apprendimento auto-supervisionato passo dopo passo, prima utilizzando corpora generali e poi specifici del dominio per la creazione del LLM specifico del dominio.

Esempio: BioBERT

BioBERT (Lee et al., 2019) è basato sul modello BERT-base (Devlin et al., 2019), con un ulteriore pre-addestramento nel dominio biomedico. Questo modello è stato addestrato per 200K passi su Pub Med e 270K passi su PMC, seguito da 1M passi sul dataset di Pub Med. BioBERT supera BERT e modelli precedenti di punta nel settore biomedico quando viene pre-addestrato su corpora biomedici pur avendo quasi la stessa architettura su diversi compiti. BioBERT supera BERT su tre compiti rappresentativi di text mining biomedico: riconoscimento di entità nominate biomediche (miglioramento del 0,62% del punteggio F1), estrazione di relazioni biomediche (miglioramento del 2,80% del punteggio F1) e risposta a domande biomediche (miglioramento del 12,24% del punteggio MRR).

Vantaggi dei LLM pre-addestrati specifici del dominio

Gli esempi sopra illustrano la potenza del pre-addestramento di un modello di linguaggio in un dominio specifico. Le tecniche elencate possono migliorare significativamente le prestazioni su compiti in quel dominio. Ci sono anche diversi vantaggi oltre al miglioramento delle prestazioni. I LLM specifici del dominio alla fine portano a un’esperienza utente migliore. Un altro vantaggio importante dei LLM specifici del dominio è la riduzione delle allucinazioni. Un grande problema con i modelli di grandi dimensioni è la possibilità di allucinazioni o generazione di informazioni inaccurate. I LLM specifici del dominio possono dare priorità alla precisione nelle risposte e diminuire le allucinazioni limitando lo spettro dei casi di applicazione. Un altro grande beneficio dei LLM specifici del dominio è la protezione delle informazioni sensibili o private, una questione importante per le aziende di oggi.

Conclusione

Man mano che sempre più casi d’uso adottano i LLM per prestazioni migliori e capacità multilingue, vale la pena iniziare ad affrontare nuovi problemi attraverso la prospettiva dei LLM. Inoltre, i dati sulle prestazioni elencati nelle sezioni precedenti suggeriscono che spostare le soluzioni esistenti per utilizzare i LLM è un investimento valido. Eseguire esperimenti con gli approcci menzionati in questo articolo migliorerà le possibilità di raggiungere i propri obiettivi utilizzando il pre-addestramento specifico del dominio.

Punti chiave

  • LLM sono potenti grazie alle loro forti prestazioni di apprendimento a zero e pochi esempi, alle capacità multilingue, all’adattabilità a vari casi d’uso e alla facilità di utilizzo con pochi dati.
  • Tuttavia, gli LLM generalisti presentano limitazioni come l’allucinazione e la scarsa precisione, la mancanza di comprensione di domini di nicchia e potenziali violazioni della privacy.
  • Gli LLM specifici per un determinato dominio rappresentano la soluzione a queste limitazioni. La pre-formazione di modelli di linguaggio personalizzati di grandi dimensioni è migliore rispetto al loro adattamento per ottenere i migliori risultati di prestazione. Quando vengono creati modelli di linguaggio personalizzati di grandi dimensioni per un determinato dominio, si ottengono prestazioni molto migliori e alta precisione.
  • Gli LLM specifici per un determinato dominio in campi di nicchia come legale, generazione di codice, finanza e bio-medicina hanno dimostrato che la creazione di modelli fondamentali di nicchia supera i modelli generalisti nei rispettivi benchmark di NLP.

Domande frequenti

Riferimenti

[1] Jinhyuk Lee e altri, BioBERT: un modello di rappresentazione linguistica biomedica pre-addestrato per il text mining biomedico, Bioinformatics, Volume 36, Issue 4, febbraio 2020 [2] Shijie Wu e altri, BloombergGPT: un grande modello di linguaggio per la finanza, 2023 [3] Raymond Li e altri, StarCoder: che la forza sia con te! 2023 [4] Jingqing Zhang e altri, PEGASUS: pre-formazione con frasi di gap estratte per la sintesi astratta, 2019 [5] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: pre-addestramento di trasformatori bidirezionali profondi per la comprensione del linguaggio. NAACL-HLT (1) 2019

I media mostrati in questo articolo non sono di proprietà di Analytics Vidhya e sono utilizzati a discrezione dell’autore.