Stai utilizzando il Recupero-Aumentato Generation (RAG) per la biomedicina? Incontra MedCPT un modello di trasformatore preaddestrato contrastivo per il recupero di informazioni biomediche a zero ricerca.

Stai utilizzando RAG per la biomedicina? Scopri MedCPT un modello preaddestrato di trasformatore contrastivo per il recupero di informazioni biomediche a livello zero.

I modelli di Recupero dell’Informazione (IR) hanno la capacità di ordinare e classificare documenti sulla base delle query degli utenti, facilitando un accesso efficiente ed efficace alle informazioni. Una delle applicazioni più interessanti dell’IR è nel campo della medicina, dove può essere utilizzato per cercare la letteratura scientifica pertinente e aiutare i professionisti medici a prendere decisioni basate sulle evidenze.

Tuttavia, poiché la maggior parte dei sistemi IR esistenti in questo campo si basa sulle parole chiave, potrebbero non individuare gli articoli pertinenti che non condividono esattamente le stesse parole chiave. Inoltre, i modelli basati su recuperatore denso sono addestrati su un dataset generale che non può performare bene su compiti specifici del dominio. Inoltre, c’è anche una scarsità di dataset specifici del dominio, il che limita lo sviluppo di modelli generalizzabili.

Per affrontare questi problemi, gli autori di questo articolo hanno introdotto MedCPT, un modello IR che è stato addestrato su 255 milioni di coppie query-articolo anonimizzate dai registri di ricerca di PubMed. I modelli IR tradizionali hanno una discrepanza tra il recuperatore e i moduli di ri-rank, che influisce sulle loro prestazioni. MedCPT, d’altra parte, è il primo modello IR che integra questi due componenti utilizzando l’apprendimento contrastivo. Ciò garantisce che il processo di ri-rank si allinei più strettamente alle caratteristiche degli articoli recuperati, rendendo l’intero sistema più efficace.

Come già menzionato, MedCPT è composto da un recuperatore di primo livello e un ri-rank di secondo livello. Questa architettura di codifica bidirezionale è scalabile poiché i documenti possono essere codificati offline e solo la query dell’utente deve essere codificata al momento dell’inferring. Il modello recuperatore utilizza quindi una ricerca del vicino più vicino per identificare le parti dei documenti che sono più simili alla query codificata. Il ri-rank, che è un codificatore incrociato, migliora ulteriormente la classifica degli articoli principali restituiti dal recuperatore e genera la classifica finale degli articoli.

Anche se il ri-rank è computazionalmente costoso, l’intera architettura di MedCPT è efficiente poiché è necessaria solo una codifica e una ricerca del vicino più vicino prima del processo di ri-rank. MedCPT è stato valutato su una vasta gamma di compiti di recupero biomedico senza supervisione. Di seguito sono riportati i risultati:

  • MedCPT ha raggiunto prestazioni di recupero documenti di stato dell’arte su tre dei cinque compiti biomedici nella valutazione BEIR. Ha superato modelli molto più grandi come GTR-XXL di Google (4,8 miliardi) e cpt-text-XL di OpenAI (175 miliardi).
  • L’encoder degli articoli di MedCPT supera gli altri modelli come SPECTER e SciNCL quando valutati sul compito di similarità degli articoli RELISH. Inoltre, raggiunge anche prestazioni di stato dell’arte nel compito di predizione MeSH in SciDocs.
  • L’encoder delle query di MedCPT è stato in grado di codificare frasi biomediche e cliniche in modo efficace.

In conclusione, MedCPT è il primo modello di recupero dell’informazione che integra un paio di recuperatore e moduli di ri-rank. Questa architettura fornisce un equilibrio tra efficienza e prestazioni, e MedCPT è in grado di raggiungere prestazioni di stato dell’arte in numerosi compiti biomedici e superare molti modelli più grandi. Il modello ha il potenziale per essere applicato a varie applicazioni biomediche come la raccomandazione di articoli correlati, il recupero di frasi simili, la ricerca di documenti pertinenti, ecc., rendendolo una risorsa indispensabile sia per la scoperta della conoscenza biomedica che per il supporto alle decisioni cliniche.