I ricercatori di Stanford hanno sviluppato un modello di Intelligenza Artificiale (IA) chiamato ‘RoentGen’, basato sulla Diffusione Stabile e ottimizzato su un ampio dataset di radiografie del torace e radiologia.

I ricercatori di Stanford hanno sviluppato un modello di IA chiamato 'RoentGen' basato sulla Diffusione Stabile e ottimizzato su un ampio dataset di radiografie del torace e radiologia.

Modelli di diffusione latente (LDM), una sottoclasse di modelli di diffusione del rumore, hanno recentemente acquisito importanza perché rendono possibile generare immagini ad alta fedeltà, diversità e risoluzione. Questi modelli consentono un controllo dettagliato del processo di produzione delle immagini al momento dell’inferenza (ad esempio, utilizzando prompt di testo) quando combinati con un meccanismo di condizionamento. Dataset multi-modalità di grandi dimensioni come LAION5B, che contengono miliardi di coppie di immagini e testo reali, vengono spesso utilizzati per addestrare tali modelli. Con il giusto pre-addestramento, i LDM possono essere utilizzati per molte attività successive e vengono talvolta definiti modelli fondamentali (FM).

I LDM possono essere distribuiti agli utenti finali in modo più semplice perché il loro processo di riduzione del rumore opera in uno spazio latente relativamente a bassa dimensione e richiede solo risorse hardware modeste. Grazie alle eccezionali capacità di generazione di questi modelli, è possibile produrre set di dati sintetici ad alta fedeltà e aggiungerli ai tradizionali flussi di lavoro di apprendimento automatico supervisionato in situazioni in cui i dati di addestramento sono scarsi. Ciò offre una soluzione potenziale alla carenza di set di dati di imaging medico accuratamente curati e altamente annotati. Tali set di dati richiedono una preparazione disciplinata e un lavoro considerevole da parte di professionisti medici esperti che possono decifrare elementi visivi minori ma semanticamente significativi.

Nonostante la carenza di set di dati di imaging medico di dimensioni considerevoli, accuratamente mantenuti e accessibili al pubblico, una relazione radiologica basata su testo spiega spesso in modo approfondito i dati medici pertinenti contenuti negli esami di imaging. Questo “sottoprodotto” della presa di decisioni mediche può essere utilizzato per estrarre etichette che possono essere utilizzate automaticamente per attività successive. Tuttavia, richiede comunque una formulazione del problema più limitata rispetto a quanto sarebbe altrimenti possibile descrivere con il linguaggio umano naturale. Utilizzando termini medici o concetti di interesse pertinenti, i LDM pre-addestrati condizionati al testo potrebbero essere utilizzati per sintetizzare in modo intuitivo dati di imaging medico sintetici.

Questo studio esamina come adattare un grande LDM visione-linguaggio (Stable Diffusion, SD) a idee di imaging medico senza un addestramento specifico su questi concetti. Esplorano la sua applicazione per la produzione di radiografie del torace (CXR) condizionate a brevi prompt di testo nel dominio per sfruttare l’addestramento pregresso di immagini e testo sottostante i componenti del SD. Le radiografie del torace sono una delle modalità di imaging più utilizzate al mondo perché sono facili da ottenere, convenienti e in grado di fornire informazioni su una vasta gamma di importanti disturbi medici. In questo studio, viene esplorata sistematicamente per la prima volta l’adattamento del dominio di un LDM pre-addestrato al di fuori del dominio per la creazione condizionata del linguaggio di immagini mediche oltre al contesto few- o zero-shot, secondo la conoscenza degli autori.

Per fare ciò, è stata valutata, quantificata e successivamente aumentata la capacità rappresentativa del SD mentre si esaminavano vari metodi per migliorare questo modello fondamentale pre-addestrato nel dominio generale per rappresentare idee mediche specifiche per le radiografie del torace. Forniscono RoentGen, un modello generativo per la sintesi di CXR ad alta fedeltà che può inserire, combinare e modificare le apparenze di imaging di diverse scoperte CXR utilizzando prompt di testo medico libero e correlati immagini accurate dei concetti medici pertinenti.

La relazione identifica anche i seguenti sviluppi:

1. Presentano un quadro completo per valutare la correttezza fattuale dei modelli di testo-immagine adattati al dominio medico utilizzando compiti specifici del dominio, ovvero i) classificazione utilizzando un classificatore pre-addestrato, ii) generazione di rapporti di radiologia e iii) recupero immagine-immagine e immagine-testo.

2. Il livello più elevato di fedeltà dell’immagine e correttezza concettuale viene raggiunto mediante il fine-tuning degli encoder di testo U-Net e CLIP (Contrastive Language-Image Pre-Training), che vengono confrontati con altri metodi per l’adattamento del SD a una nuova distribuzione dei dati CXR.

3. Quando l’encoder di testo è congelato e viene addestrato solo l’U-Net, l’encoder di testo CLIP originale può essere sostituito con un encoder di testo specifico del dominio, il che comporta un miglioramento delle prestazioni del modello di diffusione stabile risultante dopo il fine-tuning.

4. La capacità dell’encoder di testo di esprimere concetti medici come anomalie insolite viene migliorata quando il lavoro di fine-tuning del SD viene utilizzato per estrarre conoscenze nel dominio e viene addestrato insieme all’U-Net.

5. RoentGen può essere sottoposto a fine-tuning su un piccolo subset di immagini (1.1-5.5k) e può integrare dati per compiti successivi di classificazione delle immagini. Nella loro configurazione, l’addestramento su dati reali e sintetici ha migliorato le prestazioni di classificazione del 5%, con l’addestramento solo su dati sintetici che si comporta in modo comparabile all’addestramento su dati reali.