AI medica multimodale

AI medica multimodale' - 'Multimodal medical AI

Pubblicato da Greg Corrado, Capo del Settore IA per la Salute, Ricerca Google, e Yossi Matias, VP, Ingegneria e Ricerca, Ricerca Google

La medicina è una disciplina intrinsecamente multimodale. Quando forniamo assistenza, i medici interpretano routine dati provenienti da una vasta gamma di modalità, tra cui immagini mediche, note cliniche, test di laboratorio, cartelle cliniche elettroniche, genomi e altro ancora. Negli ultimi dieci anni circa, i sistemi di intelligenza artificiale hanno raggiunto una performance di livello esperto su compiti specifici all’interno di modalità specifiche: alcuni sistemi di intelligenza artificiale elaborano scansioni TC, mentre altri analizzano preparati patologici ad alta ingrandimento e altri ancora cercano rare variazioni genetiche. Gli input di questi sistemi tendono ad essere dati complessi come immagini, e di solito forniscono output strutturati, che siano sotto forma di valutazioni discrete o maschere di segmentazione di immagini dense. Parallelamente, le capacità e le funzionalità dei grandi modelli di linguaggio (LLM) sono diventate così avanzate che hanno dimostrato comprensione ed esperienza nella conoscenza medica, interpretando e rispondendo in linguaggio semplice. Ma come facciamo a combinare queste capacità per costruire sistemi di intelligenza artificiale medica che possano sfruttare le informazioni provenienti da tutte queste fonti?

Nel post di blog di oggi, delineiamo una gamma di approcci per portare le capacità multimodali ai LLM e condividiamo alcuni risultati interessanti sulla fattibilità della costruzione di LLM medici multimodali, come descritto in tre recenti articoli di ricerca. Gli articoli, a loro volta, descrivono come introdurre modalità de novo in un LLM, come innestare un modello di base di imaging medico all’interno di un LLM conversazionale e i primi passi verso la costruzione di un sistema di intelligenza artificiale medica multimodale veramente generalista. Se sviluppati con successo, i LLM medici multimodali potrebbero servire come base per nuove tecnologie assistive che spaziano dalla medicina professionale alla ricerca medica e alle applicazioni per i consumatori. Come per i nostri lavori precedenti, sottolineiamo la necessità di una valutazione attenta di queste tecnologie in collaborazione con la comunità medica e l’ecosistema sanitario.

Una gamma di approcci

Sono stati proposti diversi metodi per la costruzione di LLM multimodali negli ultimi mesi [1, 2, 3], e senza dubbio nuovi metodi continueranno ad emergere ancora per un po’ di tempo. Al fine di comprendere le opportunità di introdurre nuove modalità nei sistemi di intelligenza artificiale medica, considereremo tre approcci ampiamente definiti: utilizzo di strumenti, innesto di modelli e sistemi generalisti.

La gamma di approcci per la costruzione di LLM multimodali va dall’utilizzo di strumenti o modelli esistenti da parte dei LLM, all’utilizzo di componenti specifici del dominio con un adattatore, fino alla modellazione congiunta di un modello multimodale.

Utilizzo di strumenti

Nell’approccio dell’utilizzo di strumenti, un LLM medico centrale esternalizza l’analisi dei dati nelle varie modalità a un insieme di sottosistemi software ottimizzati in modo indipendente per quelle attività: gli strumenti. L’esempio mnemonico comune dell’utilizzo di uno strumento è insegnare a un LLM ad utilizzare una calcolatrice invece di fare aritmetica da solo. Nello spazio medico, un LLM medico di fronte a una radiografia del torace potrebbe inviare quell’immagine a un sistema di intelligenza artificiale radiologica e integrarne la risposta. Questo potrebbe essere realizzato tramite interfacce di programmazione delle applicazioni (API) offerte dai sottosistemi, o in modo più fantasioso, due sistemi di intelligenza artificiale medica con diverse specializzazioni che si impegnano in una conversazione.

Questo approccio ha alcuni importanti vantaggi. Consente la massima flessibilità e indipendenza tra i sottosistemi, consentendo ai sistemi sanitari di combinare e abbinare prodotti tra fornitori tecnologici in base alle caratteristiche di performance convalidate dei sottosistemi. Inoltre, i canali di comunicazione leggibili dall’uomo tra i sottosistemi massimizzano l’auditabilità e la capacità di debug. Detto ciò, ottenere la comunicazione corretta tra sottosistemi indipendenti può essere complicato, limitando il trasferimento delle informazioni o esponendo un rischio di comunicazione errata e perdita di informazioni.

Innesto di modelli

Un approccio più integrato sarebbe quello di prendere una rete neurale specializzata per ciascun dominio rilevante e adattarla per collegarsi direttamente al LLM, innestando il modello visivo all’interno dell’agente di ragionamento principale. A differenza dell’utilizzo di strumenti in cui gli strumenti specifici utilizzati sono determinati dal LLM, nell’innesto di modelli i ricercatori possono scegliere di utilizzare, affinare o sviluppare modelli specifici durante lo sviluppo. In due recenti articoli di Google Research, mostriamo che ciò è effettivamente fattibile. I LLM neurali di solito elaborano il testo mappando prima le parole in uno spazio di embedding vettoriale. Entrambi gli articoli si basano sull’idea di mappare i dati di una nuova modalità nello spazio di embedding delle parole di input già familiare al LLM. Il primo articolo, “LLM multimodali per la salute basati su dati specifici di individui”, mostra che la predizione del rischio di asma nel Biobank del Regno Unito può essere migliorata se prima addestriamo un classificatore di reti neurali per interpretare gli espirogrammi (una modalità utilizzata per valutare la capacità respiratoria) e poi adattiamo l’output di quella rete per usarlo come input nel LLM.

Il secondo articolo, “ELIXR: Verso un sistema di intelligenza artificiale a raggi X a uso generale attraverso l’allineamento di grandi modelli di linguaggio e codificatori di visione radiologica”, adotta la stessa strategia, ma la applica ai modelli di codifica delle immagini a piena scala in radiologia. Partendo da un modello di base per la comprensione delle radiografie del torace, già dimostrato essere una buona base per la costruzione di una varietà di classificatori in questa modalità, questo articolo descrive l’addestramento di un adattatore leggero di informazioni mediche che rieffettua l’output dello strato superiore del modello di base come una serie di token nello spazio di incorporamento degli input del modello di linguaggio. Nonostante il riaffinamento né del codificatore visivo né del modello di linguaggio, il sistema risultante mostra capacità per le quali non è stato addestrato, compresa la ricerca semantica e la risposta a domande visive.

Il nostro approccio all’innesto di un modello funziona addestrando un adattatore di informazioni mediche che mappa l’output di un codificatore di immagini esistente o raffinato in una forma comprensibile per il modello di linguaggio.

L’innesto del modello ha diversi vantaggi. Utilizza risorse computazionali relativamente modeste per addestrare i livelli dell’adattatore ma consente al modello di linguaggio di basarsi su modelli già altamente ottimizzati e convalidati in ciascun dominio dei dati. La modularizzazione del problema in componenti di codificatore, adattatore e modello di linguaggio può facilitare anche i test e il debug dei singoli componenti software durante lo sviluppo e l’implementazione di un sistema del genere. Gli svantaggi corrispondenti sono che la comunicazione tra il codificatore specializzato e il modello di linguaggio non è più leggibile dall’essere umano (essendo una serie di vettori ad alta dimensione) e la procedura di innesto richiede la costruzione di un nuovo adattatore non solo per ogni codificatore specifico del dominio, ma anche per ogni revisione di ciascuno di quei codificatori.

Sistemi generalisti

L’approccio più radicale all’IA medica multimodale consiste nel costruire un sistema integrato e completamente generalista, in grado di assorbire nativamente informazioni da tutte le fonti. Nel nostro terzo articolo in questo ambito, “Verso un’IA biomedica generalista”, anziché avere codificatori e adattatori separati per ciascuna modalità di dati, ci basiamo su PaLM-E, un modello multimodale recentemente pubblicato che è esso stesso una combinazione di un singolo modello di linguaggio (PaLM) e un singolo codificatore di visione (ViT). In questa configurazione, le modalità di dati testuali e tabellari sono gestite dal codificatore di testo del modello di linguaggio, ma ora tutti gli altri dati sono trattati come un’immagine e alimentati al codificatore di visione.

Med-PaLM M è un grande modello generativo multimodale che codifica e interpreta in modo flessibile dati biomedici, inclusi linguaggio clinico, immagini e genomica, con gli stessi pesi del modello.

Specializziamo PaLM-E nel dominio medico riaffinando l’intero set di parametri del modello su set di dati medici descritti nell’articolo. Il sistema risultante di IA medica generalista è una versione multimodale di Med-PaLM che chiamiamo Med-PaLM M. L’architettura multimodale di sequenza a sequenza flessibile ci consente di intercalare vari tipi di informazioni biomediche multimodali in una singola interazione. Per quanto ne sappiamo, è la prima dimostrazione di un singolo modello unificato in grado di interpretare dati biomedici multimodali e gestire una vasta gamma di compiti utilizzando lo stesso set di pesi del modello in tutti i compiti (valutazioni dettagliate nell’articolo).

Questo approccio di tipo generalista alla multimodalità è sia il più ambizioso che allo stesso tempo il più elegante tra gli approcci che descriviamo. In principio, questo approccio diretto massimizza la flessibilità e il trasferimento di informazioni tra le modalità. Senza API da mantenere compatibili tra di loro e senza proliferazione di livelli di adattamento, l’approccio generalista ha argomentabilmente il design più semplice. Ma quella stessa eleganza è anche la fonte di alcuni dei suoi svantaggi. I costi computazionali sono spesso più alti e, con un encoder visivo unitario che serve una vasta gamma di modalità, la specializzazione di dominio o la debuggabilità del sistema potrebbero risentirne.

La realtà dell’IA medica multimodale

Per sfruttare al massimo l’IA in medicina, dovremo combinare la potenza dei sistemi esperti addestrati con l’IA predittiva con la flessibilità resa possibile dall’IA generativa. Quale approccio (o combinazione di approcci) sarà più utile nel campo dipende da una moltitudine di fattori non ancora valutati. La flessibilità e la semplicità di un modello generalista sono più preziose della modularità del trapianto di modelli o dell’uso di strumenti? Quale approccio fornisce i risultati di qualità più elevata per un caso d’uso specifico del mondo reale? L’approccio preferito è diverso per supportare la ricerca medica o l’educazione medica rispetto all’arricchimento della pratica medica? Rispondere a queste domande richiederà una continua e rigorosa ricerca empirica e una continua collaborazione diretta con operatori sanitari, istituti medici, enti governativi e partner del settore sanitario in generale. Non vediamo l’ora di trovare insieme le risposte.