Incontra Meditron una suite di modelli linguistici medici open-source (LLM) basati su LLaMA-2.

Incontra Meditron una fantastica suite di modelli linguistici medici open-source (LLM) basata su LLaMA-2.

Una delle applicazioni più interessanti dei Large Language Models (LLM) è nella medicina, con alcuni dei suoi casi d’uso che includono la ricerca medica, piani di salute personalizzati, diagnosi cliniche e molti altri. Tuttavia, dato quanto sia critico per la sicurezza il campo, è necessario sottoporre questi modelli a test di resistenza in vari casi d’uso per garantire che siano sicuri da utilizzare. Inoltre, tali modelli dovrebbero essere resi disponibili al pubblico per permettere la loro scrutinio.

Un gruppo di ricercatori ha quindi messo a disposizione un insieme di LLM chiamati MediTron che sono adattati al dominio e basati su LLaMA-2. Il modello ha due varianti: una con 7B di parametri e l’altra con 70B. MediTron è un modello fondamentale che può essere utilizzato per specifici compiti successivi mediante RLHF o affinamento delle istruzioni, e alcuni dei suoi utilizzi includono il rispondere alle domande degli esami medici, le queries sulla salute generale, le queries sulle informazioni sulle malattie e il supporto alle diagnosi differenziali.

Il dataset di addestramento di MediTron è piuttosto completo e comprende linee guida per la pratica clinica, articoli medici con relativi abstract e dati di preformazione nel dominio generale. La libreria di addestramento distribuito Megatron-LLM è stata utilizzata per ottimizzare l’efficienza dell’addestramento e lo schema di parallelizzazione utilizza il parallelismo dei dati, delle pipeline e dei tensori per accelerare il processo.

I ricercatori hanno effettuato una valutazione preliminare della veridicità dei modelli rispetto ai modelli di riferimento.

Hanno utilizzato il dataset TruthfulQA come riferimento e hanno effettuato valutazioni “one-shot” per il modello 7B e valutazioni “zero-shot” per il modello 70B. Entrambi i modelli sono stati in grado di avere prestazioni migliori rispetto agli altri, con un punteggio medio di 71,2 per MediTron-70B rispetto a 54,8 per LLaMA-2-70B e 28,3 per MediTron-7B rispetto a 12,6 per LLaMA-2-7B.

Per valutazioni successive, i ricercatori hanno utilizzato diversi benchmark di test come MedQA, PubMedQA, ecc., e hanno calcolato l’accuratezza dei compiti di risposta alle domande a scelta multipla. Per confrontare i risultati, hanno anche utilizzato diversi LLM come LLaMA-7B, LLaMA-70B, Mistral-7B-instruct, ecc. I risultati mostrano che sia MediTron-7B che MediTron-70B hanno superato i loro concorrenti su quasi tutti i dataset, dimostrando le loro capacità superiori.

Anche se il modello è stato addestrato su un ampio set di dati medici e si comporta bene su diversi benchmark, gli utenti dovrebbero essere consapevoli delle sue limitazioni e non dovrebbero utilizzarlo in applicazioni mediche senza test aggiuntivi. I ricercatori hanno appena iniziato a comprendere le capacità e le limitazioni del modello e quindi hanno messo in guardia dall’utilizzarlo nei sistemi medici al momento.

In conclusione, MediTron è un insieme di LLM specifici per il dominio che sono stati addestrati su una vasta gamma di dataset medici. Ha due varianti, una con 7B di parametri e una con 70B, e entrambi sono stati in grado di performare meglio degli altri modelli considerati per la valutazione. I ricercatori hanno anche menzionato che il modello non dovrebbe essere utilizzato senza ulteriore addestramento, date le criticità del campo. Nel complesso, il modello è uno sviluppo entusiasmante nella medicina e ha il potenziale per risolvere una serie di compiti medici e aiutare i professionisti della salute.