Incontra Med-Flamingo un modello fondamentale unico in grado di eseguire un’apprendimento multimodale contestuale specializzato nel campo medico.

Incontra Med-Flamingo, un modello unico in grado di apprendere in modo specializzato nel campo medico utilizzando diverse modalità.

Con la crescente popolarità dell’Intelligenza Artificiale (AI), i modelli fondamentali hanno dimostrato una straordinaria capacità di gestire una varietà di problemi con solo una piccola quantità di informazioni fornite da istanze etichettate. L’idea di apprendimento in contesto ha attirato l’attenzione con la sua capacità di consentire a un modello di apprendere un compito da pochi esempi forniti mentre viene sollecitato senza modificare i parametri del modello. Considerando il campo della sanità e del settore medico, l’apprendimento in contesto ha il potenziale per migliorare in modo esponenziale i modelli attuali di intelligenza artificiale medica.

Sebbene l’apprendimento in contesto abbia mostrato grandi capacità in termini di dati medici, a causa della complessità intrinseca e della multimodalità dei dati medici, nonché della varietà di compiti da svolgere, implementare l’apprendimento in contesto in un contesto medico presenta difficoltà. Sono stati tentati modelli fondamentali medici multimodali in passato, come ChexZero, che si specializza nella lettura dei raggi X del torace, e BiomedCLIP, che è stato addestrato su una varietà di immagini collegate a didascalie della letteratura biologica. Per filmati chirurgici e dati di cartella clinica elettronica (EHR), sono stati ideati diversi modelli. Nessuno di questi modelli ha incluso l’apprendimento contestuale per il dominio medico multimodale.

Per affrontare le limitazioni, un team di ricercatori ha proposto Med-Flamingo, un modello fondamentale unico e altamente efficace in grado di eseguire l’apprendimento contestuale multimodale specializzato per il dominio medico. Questo modello visione-linguaggio si basa su Flamingo, che è uno dei primi modelli visione-linguaggio che dimostrano capacità di apprendimento in contesto e di apprendimento con pochi esempi. Fornendo un pre-addestramento in fonti di conoscenza multimodali provenienti da più campi medici, Med-Flamingo amplia queste capacità nell’ambito medico.

La prima fase prevede la creazione di un dataset originale, intercalato immagine-testo, da oltre 4K libri di testo medici, garantendo la correttezza selezionando il dataset da fonti affidabili e affidabili di conoscenza medica. Al fine di valutare Med-Flamingo, i ricercatori si sono concentrati su compiti generativi di domande-risposte visive mediche (VQA), in cui il modello crea direttamente risposte aperte anziché valutare possibilità predefinite. È stato sviluppato un nuovo e realistico processo di valutazione che produce un punteggio di valutazione umana come parametro chiave. È stato inoltre sviluppato un dataset visivo USMLE, che è un dataset VQA generativo difficile che comprende compiti difficili in stile USMLE in diverse specialità, arricchito con immagini, vignette di casi e risultati di laboratorio.

In tre dataset VQA generativi medici, Med-Flamingo ha dimostrato di superare i modelli precedenti in punteggi di valutazione clinica, suggerendo che i medici preferiscano le previsioni del modello. Ha dimostrato competenze di ragionamento medico, qualcosa che i modelli fondamentali medici multimodali non avevano fatto in precedenza, rispondendo a complesse domande mediche e offrendo giustificazioni. Tuttavia, l’efficacia del modello può essere limitata dalla varietà e dall’accessibilità dei dati di addestramento, nonché dalla difficoltà di alcuni compiti medici.

Il team ha riassunto i loro contributi come segue.

  1. Med-Flamingo è il primo modello a pochi esempi multimodale progettato per il dominio medico, offrendo nuove applicazioni cliniche come la generazione di giustificazioni e la condizionatura del contesto.
  2. I ricercatori hanno creato un dataset unico per il pre-addestramento del modello, specificamente adatto per l’apprendimento a pochi esempi multimodale nel dominio medico.
  3. Hanno anche introdotto un dataset di valutazione con problemi in stile USMLE, che incorpora un ragionamento medico complesso nella risposta a domande visive.
  4. Sono state criticate le strategie di valutazione esistenti ed è stata condotta una valutazione clinica approfondita utilizzando un’app dedicata che coinvolge valutatori medici per valutare le generazioni VQA aperte del modello.