Affinamento di LLaMA su documenti medici Incontra il modello PMC-LLaMA-A che raggiunge alte prestazioni sui benchmark di domande e risposte biomediche.
Affinamento di LLaMA su documenti medici, modello PMC-LLaMA-A ad alte prestazioni sui benchmark biomedici.
Lo sviluppo di modelli di lingua di grandi dimensioni (LLM), come ChatGPT di OpenAI e GPT-4, ha ridefinito l’intelligenza artificiale in molti campi, tra cui l’elaborazione del linguaggio naturale, la visione artificiale e il campo biomedico. Purtroppo, le specifiche dell’addestramento di ChatGPT e le architetture del modello per le sue varianti sono ancora sconosciute. Mentre LLaMA è un modello di lingua fondamentale open source, si ipotizza che le sue scarse prestazioni nelle applicazioni che richiedono una vasta conoscenza di dominio siano causate dalla mancanza di dati specifici del dominio durante la fase di pre-addestramento del modello.
Molti studi hanno discusso di modificare e utilizzare LLM open source per scopi specializzati. Ad esempio, Alpaca e Vicuna si sono concentrati sull’ampliamento della capacità del modello di interazione addestrandolo con esempi di obbedienza alle istruzioni create automaticamente.
Un recente lavoro dell’Università Jiao Tong di Shanghai e del Laboratorio di Intelligenza Artificiale di Shanghai adotta un approccio diverso introducendo conoscenze di dominio in un singolo modello di lingua pre-addestrato LLaMA per orientare il modello di lingua fondamentale verso un corpus specifico del campo medico. Introducono PMC-LLaMA, un modello di lingua disponibile pubblicamente sviluppato raffinando LLaMA-7B su 4,8 milioni di articoli accademici medici. Il team ritiene che la discussione medica e la consulenza trarrebbero maggiori benefici da un modello di lingua fondamentale con un focus medico.
- Incontra ImageReward un modello rivoluzionario di testo-immagine che colma il divario tra le capacità di generazione dell’IA e i valori umani.
- Comprendere i grandi modelli di linguaggio La fisica di (Chat)GPT e BERT
- Aumentare l’affidabilità delle reti di sensori wireless tramite la taratura cieca
Il team ha iniziato con i dataset S2ORC, che contengono 81,1 milioni di articoli accademici in inglese, e li ha ordinati in base all’identificatore PubMed Central (PMC). Pertanto, circa 4,9 milioni di articoli, per un totale di oltre 75 miliardi di token, sono strettamente correlati alla conoscenza medica. Ottimizzando un obiettivo di generazione autoregressiva, presentato per la prima volta in GPT2, affinano il modello LLaMA-7B su questi articoli PMC liberamente disponibili. Utilizzano il formato dati bf16 (Brain Floating Point) e l’approccio di accelerazione Fully Sharded Data Parallel (FSDP) per velocizzare il processo di apprendimento.
Il team testa PMC-LLaMA effettuando tre diversi tipi di affinamento sui suddetti dataset medici di domande e risposte: affinamento completo, affinamento dei parametri efficiente e affinamento dei dati efficiente. I risultati degli esperimenti mostrano che PMC-LLaMA supera LLaMA e altri modelli addestrati con istruzioni modificate di LLaMA nel dominio medico quando le istruzioni vengono regolate.
Un difetto di PMC-LLaMA è che non è possibile trovare ogni token nei 4,8 milioni di articoli perché finora sono stati addestrati solo per cinque epoche. In futuro, hanno intenzione di addestrare gradualmente modelli PMC-LLaMA con più parametri, addestrare continuamente PMC-LLaMA e aggiornare il modello di base sulla pagina di hugging face.