La generazione di testi clinici sintetici può rivoluzionare le attività di NLP clinico? Incontra ClinGen Un modello di intelligenza artificiale che coinvolge l’estrazione di conoscenze cliniche e la guida informata dal contesto LLM.

Come la generazione di testi sintetici può trasformare l'NLP clinico? Scopri ClinGen un modello di intelligenza artificiale che estrae conoscenze cliniche e guida con informazioni contestualizzate LLM.

L’estrazione, l’analisi e l’interpretazione dei dati medici da letteratura clinica non strutturata sono inclusi nella disciplina emergente dell’elaborazione del linguaggio naturale (NLP) clinico. Nonostante la sua importanza, si presentano particolari difficoltà nello sviluppo di metodologie per l’NLP clinico. Ad esempio, i testi clinici possono confondere i modelli NLP ordinari poiché spesso sono pieni di acronimi e terminologia medica specializzata. Fortunatamente, i recenti sviluppi in ampi modelli linguistici offrono una soluzione promettente a questi problemi poiché sono preallenati su ampi corpora e includono miliardi di parametri, catturando naturalmente informazioni cliniche sostanziali.

Questi sviluppi evidenziano la necessità di sviluppare metodi specifici per modificare gli LLM per l’uso in contesti clinici che affrontino sia la complessità della terminologia che migliorino i modelli tramite il raffinamento dei dati clinici. Anche se gli LLM generici hanno molto potenziale, usarli direttamente per dedurre informazioni sui dati di testo clinico è desiderabile solo in alcuni casi nelle impostazioni del mondo reale. Innanzitutto, questi LLM spesso hanno miliardi di parametri, richiedendo una notevole potenza di elaborazione fin dalla concezione. Ciò comporta costi infrastrutturali elevati e tempi di deduzione lunghi. Le informazioni sensibili dei pazienti nei testi clinici sollevano anche preoccupazioni sulla privacy e la conformità normativa. Creare dati di addestramento sintetici con LLM è una tecnica potenziale per affrontare questi problemi, poiché si utilizzano le capacità degli LLM in modo consapevole delle risorse e della privacy.

I modelli possono operare a livelli di prestazioni elevati nel rispetto delle leggi sulla privacy dei dati quando vengono addestrati su questi insiemi di dati artificiali che replicano dati clinici del mondo reale. Nell’apprendimento automatico in generale, una delle aree di studio più comuni è la creazione di dati sintetici utilizzando modelli di base. Tuttavia, l’utilizzo di LLM addestrati su testi disponibili per creare dati clinici presenta ostacoli particolari nel fornire dati di alta qualità che seguano la distribuzione dell’insieme di dati originale. Per valutare la qualità dei dati prodotti dalle tecniche esistenti, conducono un’analisi approfondita incentrata sulla varietà e sulla distribuzione. Lo score di discrepanza del momento centrale (CMD) e la visualizzazione dell’embedding t-SNE rivelano un notevole cambiamento nella distribuzione dei dati.

Esaminano anche le quantità e le frequenze delle entità correlate alla clinica nei dati sintetici; si osserva una diminuzione significativa confrontando i dati sintetici con i dati di riferimento. Sebbene diversi studi abbiano esplorato la creazione di dati clinici utilizzando modelli linguistici, molti di questi progetti sono specifici per attività. Registri sanitari elettronici, note cliniche, data mining di testo medico e conversazioni mediche sono solo alcuni esempi. Questi studi possono utilizzare dati di addestramento eccessivi e spesso utilizzano modelli linguistici direttamente per la produzione di testi. Ci sono solo idee limite per migliorare come gli LLM vengono modificati per produrre testi sintetici che aiuteranno le applicazioni cliniche.

Ispirati dalla ricerca sopra citata, i ricercatori dell’Università Emory e dell’Istituto di Tecnologia della Georgia propongono CLINGEN, un framework generico imbuto di competenza clinica per la produzione di testi clinici di alta qualità in situazioni a poche iterazioni. I loro obiettivi ultimi sono promuovere la varietà di soggetti nel testo prodotto e colmare il divario tra dati sintetici e dati di riferimento. Forniscono un metodo per utilizzare l’estrazione delle conoscenze cliniche per contestualizzare le istruzioni al fine di raggiungere questo obiettivo. Ciò comporta ottenere idee per temi clinici da KG e LLM e consigli per lo stile di scrittura da LLM. In questo modo, CLINGEN combina le informazioni parametriche interne incorporate nei grandi modelli linguistici con le intuizioni non parametriche provenienti dai grafi di conoscenza clinica esterni.

È importante notare che CLINGEN può essere facilmente utilizzato per vari compiti fondamentali di NLP clinico e richiede un lavoro umano extra molto limitato. Di seguito è riportato un riepilogo dei loro contributi:

• Per la creazione di dati di testo clinico in situazioni a poche iterazioni, propongono CLINGEN, un framework generico ricco di informazioni cliniche.

• Offrono un metodo semplice ma efficace per utilizzare l’estrazione delle conoscenze cliniche per adattare le istruzioni all’attività NLP clinica desiderata, che può essere facilmente applicata a varie attività in NLP clinico. Ciò comporta ottenere idee per temi clinici da KG e LLM e consigli per lo stile di scrittura da LLM.

• Effettuano un’analisi approfondita sulla creazione di dati clinici sintetici utilizzando 16 set di dati e 7 attività NLP cliniche. I risultati sperimentali mostrano che CLINGEN aumenta la varietà dei campioni di addestramento prodotti mentre si allinea più strettamente alla distribuzione dei dati originali. Le performance empiriche aumentano (8,98% per PubMedBERTBase e 7,27% per PubMedBERTLarge) sono coerenti su più attività con diversi LLM e classificatori.