Rivoluzionare l’assistenza sanitaria Esplorare l’impatto e il futuro dei grandi modelli di lingua in medicina

Rivoluzionare l'assistenza sanitaria Investigare l'impatto e il futuro dei grandi modelli di linguaggio nella medicina

L’integrazione e l’applicazione di grandi modelli di linguaggio (LLM) nella medicina e nell’assistenza sanitaria sono state argomenti di notevole interesse e sviluppo.

Come evidenziato nella conferenza globale Healthcare Information Management and Systems Society e in altri eventi di rilievo, aziende come Google stanno guidando l’indagine sul potenziale dell’IA generativa nel settore sanitario. Le loro iniziative, come Med-PaLM 2, evidenziano il panorama in evoluzione delle soluzioni di assistenza sanitaria basate sull’IA, in particolare nei settori della diagnostica, dell’assistenza ai pazienti e dell’efficienza amministrativa.

Med-PaLM 2 di Google, un LLM pionieristico nel campo della sanità, ha dimostrato capacità impressionanti, raggiungendo in particolare un livello “esperto” nelle domande stile US Medical Licensing Examination. Questo modello, e altri simili, promettono di rivoluzionare il modo in cui i professionisti sanitari accedono e utilizzano le informazioni, migliorando potenzialmente l’accuratezza diagnostica e l’efficienza nell’assistenza ai pazienti.

Tuttavia, insieme a questi progressi, sono state sollevate preoccupazioni sulla praticità e la sicurezza di queste tecnologie negli ambienti clinici. Ad esempio, il ricorso a vaste fonti di dati Internet per l’addestramento del modello, sebbene vantaggioso in alcuni contesti, potrebbe non sempre essere appropriato o affidabile per scopi medici. Come sottolinea Nigam Shah, PhD, MBBS, Chief Data Scientist per Stanford Health Care, le domande cruciali da porsi riguardano le prestazioni di questi modelli negli ambienti medici reali e il loro effettivo impatto sull’assistenza ai pazienti e l’efficienza sanitaria.

La prospettiva del Dr. Shah sottolinea la necessità di un approccio più mirato all’utilizzo di LLM nella medicina. Invece di modelli a uso generico addestrati su ampi dati di Internet, suggerisce una strategia più focalizzata in cui i modelli vengono addestrati su dati medici specifici e rilevanti. Questo approccio assomiglia all’addestramento di un tirocinante medico: fornendo loro compiti specifici, supervisionando le loro prestazioni e consentendo gradualmente una maggiore autonomia man mano che dimostrano competenza.

In linea con ciò, lo sviluppo di Meditron da parte dei ricercatori dell’EPFL rappresenta un interessante avanzamento nel campo. Meditron, un LLM open-source appositamente sviluppato per applicazioni mediche, rappresenta un significativo passo avanti. Addestrato su dati medici curati da fonti autorevoli come PubMed e linee guida cliniche, Meditron offre uno strumento più focalizzato e potenzialmente più affidabile per i professionisti medici. La sua natura open-source non solo favorisce la trasparenza e la collaborazione, ma consente anche un miglioramento continuo e test di resistenza da parte della più ampia comunità di ricerca.

MEDITRON-70B-achieves-an-accuracy-of-70.2-on-USMLE-style-questions-in-the-MedQA-4-options-dataset

MEDITRON-70B raggiunge un’accuratezza del 70,2% nelle domande stile USMLE nel dataset MedQA con 4 opzioni

Lo sviluppo di strumenti come Meditron, Med-PaLM 2 e altri riflette un crescente riconoscimento delle esigenze uniche del settore sanitario quando si tratta di applicazioni di intelligenza artificiale. L’accento sull’addestramento di questi modelli su dati medici rilevanti e di alta qualità, e sulla garanzia della loro sicurezza e affidabilità negli ambienti clinici, è molto cruciale.

Inoltre, l’inclusione di set di dati diversificati, come quelli provenienti da contesti umanitari come il Comitato Internazionale della Croce Rossa, dimostra una sensibilità alle diverse esigenze e sfide nell’assistenza sanitaria globale. Questo approccio si allinea con la missione più ampia di molti centri di ricerca sull’IA, che mirano a creare strumenti di intelligenza artificiale che siano non solo tecnologicamente avanzati, ma anche socialmente responsabili e benefici.

L’articolo dal titolo “Large language models encode clinical knowledge” recentemente pubblicato su Nature, esplora come i grandi modelli di linguaggio (LLM) possano essere utilizzati in modo efficace in ambienti clinici. La ricerca presenta innovativi spunti e metodologie, gettando luce sulle capacità e limitazioni dei LLM nel dominio medico.

Il dominio medico è caratterizzato dalla sua complessità, con una vasta gamma di sintomi, malattie e trattamenti in costante evoluzione. I LLM devono non solo comprendere questa complessità, ma anche tenersi aggiornati sulle ultime conoscenze mediche e linee guida.

Il cuore di questa ricerca ruota attorno a un nuovo benchmark denominato MultiMedQA. Questo benchmark amalgama sei dataset esistenti di domande e risposte mediche con un nuovo dataset, HealthSearchQA, che comprende domande mediche frequentemente cercate online. Questo approccio esaustivo mira a valutare i LLM (Large Language Models) su varie dimensioni, tra cui la veridicità, la comprensione, il ragionamento, il possibile danno e il bias, affrontando così le limitazioni delle valutazioni automatizzate precedenti che si basavano su benchmark limitati.

MultiMedQA, un benchmark per rispondere alle domande mediche riguardanti l'esame medico

MultiMedQA, un benchmark per rispondere alle domande mediche riguardanti l’esame medico

La chiave dello studio è la valutazione del Pathways Language Model (PaLM), un LLM di 540 miliardi di parametri, e della sua variante sintonizzata sulle istruzioni, Flan-PaLM, su MultiMedQA. In modo notevole, Flan-PaLM raggiunge una precisione all’avanguardia su tutti i dataset a scelta multipla all’interno di MultiMedQA, inclusa una precisione del 67,6% su MedQA, che comprende domande simili a quelle dell’esame di licenza medica statunitense. Questa prestazione segna un significativo miglioramento rispetto ai modelli precedenti, superando lo stato dell’arte precedente di oltre il 17%.

MedQA

Il dataset MedQA3 presenta domande simili al USMLE (United States Medical Licensing Exam), ognuna con quattro o cinque opzioni di risposta. Comprende un set di sviluppo con 11.450 domande e un set di test con 1.273 domande.

Formato: domanda e risposta (D + R), a scelta multipla, dominio aperto.

Esempio di domanda: Un uomo di 65 anni con ipertensione si reca dal medico per un esame di routine per la salute. Attualmente assume atenololo, lisinopril e atorvastatina. Il suo polso è di 86 min−1, la frequenza respiratoria è di 18 min−1 e la pressione sanguigna è di 145/95 mmHg. L'esame cardiaco rivela un soffio diastolico finale. Qual è la causa più probabile di questo esame fisico?

Risposte (la risposta corretta è in grassetto): (A) Riduzione della complianza del ventricolo sinistro, (B) Degenerazione mixoide della valvola mitrale, (C) Infiammazione del pericardio, (D) Dilatazione della radice aortica, (E) Spessimento dei lembi della valvola mitrale.

Lo studio individua anche lacune critiche nelle prestazioni del modello, soprattutto nella risposta a domande mediche poste dai consumatori. Per affrontare questi problemi, i ricercatori introducono un metodo noto come “instruction prompt tuning”. Questa tecnica allinea efficacemente i LLM a nuovi domini utilizzando alcuni esempi, dando così vita a Med-PaLM. Anche se il modello di Med-PaLM si comporta incoraggiantemente e mostra miglioramenti nella comprensione, nell’evocazione della conoscenza e nel ragionamento, rimane comunque inferiore rispetto ai medici.

Un aspetto notevole di questa ricerca è il dettagliato framework di valutazione umana. Questo framework valuta le risposte dei modelli in base all’accordo con il consenso scientifico e ai potenziali risultati dannosi. Ad esempio, sebbene solo il 61,9% delle risposte di Flan-PaLM in forma lunga rispondano all’accordo scientifico, questa percentuale sale al 92,6% per Med-PaLM, comparabile alle risposte generate dai medici. Allo stesso modo, il potenziale di risultati dannosi è significativamente ridotto nelle risposte di Med-PaLM rispetto a Flan-PaLM.

La valutazione umana delle risposte di Med-PaLM ha evidenziato la sua competenza in diverse aree, con una stretta aderenza alle risposte generate dai medici. Questo sottolinea il potenziale di Med-PaLM come strumento di supporto in contesti clinici.

La ricerca sopra descritta analizza le sfumature dell’ottimizzazione dei Large Language Models (LLMs) per le applicazioni mediche. Le tecniche e le osservazioni derivate da questo studio possono essere applicate in generale per migliorare le capacità dei LLM in vari domini. Esploriamo questi aspetti chiave:

L’ottimizzazione delle istruzioni migliora le prestazioni

  • Applicazione generalizzata: L’ottimizzazione delle istruzioni, che comporta la sintonizzazione fine dei LLM con istruzioni o linee guida specifiche, ha dimostrato di migliorare significativamente le prestazioni in diversi domini. Questa tecnica potrebbe essere applicata ad altri settori come il legale, il finanziario o quello educativo per migliorare l’accuratezza e la pertinenza dei risultati dei LLM.

Aumento della dimensione del modello

  • Implicazioni più ampie: L’osservazione che l’aumento della dimensione del modello migliora le prestazioni non è limitata alla risposta alle domande mediche. I modelli più grandi, con più parametri, hanno la capacità di elaborare e generare risposte più sfumate e complesse. Questo incremento può essere vantaggioso in settori come il servizio clienti, la scrittura creativa e il supporto tecnico, dove la comprensione sfumata e la generazione di risposte sono cruciali.

Riflessione sulla catena del pensiero (COT) Prompting

  • Utilizzo di domini diversi: L’uso del COT prompting, sebbene non sempre migliori le prestazioni nei dataset medici, può essere prezioso in altri domini in cui è richiesta una risoluzione di problemi complessi. Ad esempio, nella risoluzione dei problemi tecnici o in scenari complessi di decisione, il COT prompting può guidare gli LLM nel processare le informazioni passo dopo passo, portando a risultati più accurati e ragionati.

Autoconsistenza per una maggiore precisione

  • Applicazioni più ampie: La tecnica dell’autoconsistenza, in cui vengono generati più output e viene selezionata la risposta più coerente, può migliorare significativamente le prestazioni in vari campi. Nei settori come finanza o legge, in cui l’accuratezza è fondamentale, questo metodo può essere utilizzato per verificare incrociatamente gli output generati per una maggiore affidabilità.

Incertezza e predizione selettiva

  • Rilevanza interdominio: Comunicare stime di incertezza è cruciale in settori in cui le informazioni errate possono avere gravi conseguenze, come nel campo della salute e del diritto. L’utilizzo della capacità degli LLM di esprimere l’incertezza e ritardare selettivamente le predizioni quando la fiducia è bassa può essere uno strumento cruciale in questi domini per evitare la diffusione di informazioni errate.

L’applicazione concreta di questi modelli va oltre la semplice risposta alle domande. Possono essere utilizzati per l’educazione del paziente, per assistere nei processi diagnostici e persino nella formazione degli studenti di medicina. Tuttavia, la loro implementazione deve essere gestita con attenzione per evitare di fare affidamento sull’IA senza la supervisione umana adeguata.

Come l’evoluzione delle conoscenze mediche, anche gli LLM devono adattarsi e imparare. Ciò richiede meccanismi di apprendimento e aggiornamento continui per garantire che i modelli rimangano rilevanti e precisi nel tempo.