Colmare il divario tra clinici e modelli linguistici nel settore sanitario incontra MedAlign, un dataset generato dai clinici per l’inseguimento delle istruzioni nei registri elettronici delle cartelle cliniche.

MedAlign è un dataset creato da clinici per seguire le istruzioni nei registri elettronici delle cartelle cliniche, colmando così il divario tra clinici e modelli linguistici nel settore sanitario.

I Large Language Models (LLM) hanno utilizzato le capacità del Natural Language Processing in modo eccezionale. Dalla produzione di linguaggio e ragionamento alla comprensione della lettura, gli LLM possono fare tutto. Il potenziale di questi modelli nell’aiutare i medici nel loro lavoro ha attirato l’attenzione in diverse discipline, compresa quella sanitaria. Gli LLM recenti, tra cui Med-PaLM e GPT-4, hanno dimostrato la loro competenza in compiti che coinvolgono la risposta a domande mediche, in particolare quelle che riguardano database medici e esami.

Una limitazione costante è stata la difficoltà nel determinare se le prestazioni eccezionali degli LLM nei benchmark controllati si traducono in contesti clinici effettivi. I clinici svolgono una varietà di compiti correlati alle informazioni nell’industria sanitaria e questi lavori richiedono spesso dati complessi e non strutturati dai Medical Records Elettronici (EHR). La complessità e le sfumature con cui gli operatori sanitari si confrontano non sono ben rappresentate nei dataset di risposta a domande per dati EHR attualmente disponibili. Quando i medici si affidano agli LLM per aiutarli, mancano le sfumature necessarie per valutare quanto bene tali modelli possano fornire risposte precise e consapevoli del contesto.

Per superare queste limitazioni, un team di ricercatori ha sviluppato MedAlign, un dataset di riferimento che comprende un totale di 983 domande e istruzioni inviate da 15 medici specializzati in 7 diverse specializzazioni mediche. MedAlign si concentra sulla combinazione istruzione-risposta basata sugli EHR anziché solo sulla domanda-risposta, il che lo rende diverso dagli altri dataset. Il team ha incluso risposte di riferimento scritte dai clinici per 303 di queste istruzioni e le ha collegate ai dati EHR per offrire contesto e fondamento alle richieste. Ogni clinico ha valutato e classificato le risposte prodotte da sei diversi LLM su queste 303 istruzioni al fine di confermare l’affidabilità e la qualità del dataset.

I clinici hanno anche fornito le loro soluzioni di riferimento. Nell’assemblare un dataset che include istruzioni fornite dai clinici, valutazioni degli esperti sulle risposte generate dagli LLM e il contesto EHR correlato, MedAlign ha segnato un’impresa all’avanguardia. Questo dataset si differenzia dagli altri perché fornisce uno strumento utile per valutare quanto bene gli LLM funzionano nelle situazioni cliniche.

Il secondo contributo dimostra la fattibilità di un metodo automatizzato di tipo retrieval-based per abbinare record clinici elettronici dei pazienti pertinenti alle istruzioni cliniche. Per fare ciò, il team ha creato una procedura che renderebbe più efficace e scalabile chiedere istruzioni ai clinici. Potrebbero cercare contributi da un set di clinici più grande e più vario isolando questo metodo di richiesta di istruzioni.

Hanno anche valutato quanto bene il loro metodo automatizzato abbinasse le istruzioni con gli EHR pertinenti. I risultati hanno rivelato che, rispetto agli abbinamenti casuali di istruzioni con gli EHR, questa procedura di abbinamento automatizzata ha fornito abbinamenti rilevanti nel 74% delle situazioni. Questo risultato evidenzia l’opportunità per l’automazione di aumentare l’efficacia e la precisione della connessione dei dati clinici.

Il contributo finale esamina la relazione tra i parametri di generazione del linguaggio naturale (NLG) automatizzati e le valutazioni dei medici sulle risposte generate dagli LLM. Questa indagine cerca di determinare se misure automatizzate scalabili possono essere utilizzate per classificare le risposte degli LLM al posto delle valutazioni dei clinici professionisti. Il team mira a ridurre la necessità che i medici identifichino e valutino manualmente le risposte degli LLM in futuri studi misurando il grado di accordo tra le classifiche degli esperti umani e i criteri automatizzati. La creazione e il miglioramento degli LLM per le applicazioni sanitarie potrebbero essere accelerati grazie a questo sforzo per rendere il processo di revisione più efficace e meno dipendente dalle risorse umane.