Questa case study di ricerca AI di Microsoft rivela come Medprompt migliora le capacità specialistiche di GPT-4 in medicina e oltre senza formazione specifica del dominio.

Questa case study sulla ricerca di Intelligenza Artificiale di Microsoft svela come Medprompt potenzia le competenze specialistiche di GPT-4 in medicina e al di là, senza necessità di formazione specifica nel settore.

I ricercatori di Microsoft affrontano la sfida di migliorare l’abilità di GPT-4 nel rispondere a domande mediche senza allenamenti specifici nel dominio. Introducono Medprompt, che utilizza diverse strategie di prompt per migliorare le prestazioni di GPT-4. L’obiettivo è raggiungere risultati all’avanguardia in tutti i nove benchmark della suite MultiMedQA.

Questo studio amplia le ricerche precedenti sulle capacità mediche di GPT-4, in particolare BioGPT e Med-PaLM, esplorando sistematicamente l’impostazione del prompt per migliorare le prestazioni. La versatilità di Medprompt viene dimostrata in svariati ambiti, tra cui ingegneria elettrica, apprendimento automatico, filosofia, contabilità, diritto, infermieristica e psicologia clinica.

Lo studio esplora in modo sistematico l’impostazione del prompt per migliorare le prestazioni di GPT-4 in ambito medico. Un attento design sperimentale mitiga l’overfitting, utilizzando una metodologia di test simile all’apprendimento automatico tradizionale. La valutazione di Medprompt sui set di dati MultiMedQA, utilizzando divisioni degli utenti in grado di vedere o meno, indica una generalizzazione robusta a domande non viste in precedenza. Lo studio esamina anche le prestazioni in condizioni di carico computazionale aumentato e confronta le ragioni logiche CoT di GPT-4 con quelle di Med-PaLM 2, rivelando una logica ragionamento generata più lunga e dettagliata nelle uscite generate.

Medprompt migliora le prestazioni di GPT-4 sui set di dati di domande mediche, ottenendo risultati esistenti in MultiMedQA e superando modelli specialistici come Med-PaLM 2 con meno chiamate. Con Medprompt, GPT-4 raggiunge una riduzione del 27% del tasso di errore nel set di dati MedQA e supera per la prima volta il punteggio del 90%. Le tecniche di Medprompt, tra cui la selezione dinamica di poche esempi, una catena di pensiero autogenerata e l’ensembling di scelta casuale, possono essere applicate oltre alla medicina per migliorare le prestazioni di GPT-4 in vari ambiti. Il rigoroso design sperimentale assicura che siano mitigati i problemi di overfitting.

In conclusione, Medprompt ha dimostrato prestazioni eccezionali nei set di dati di risposta a domande mediche, superando MultiMedQA e mostrando adattabilità in vari ambiti. Lo studio sottolinea l’importanza delle valutazioni accurate per evitare l’overfitting e raccomanda una maggiore esplorazione dell’impostazione del prompt e del fine-tuning per utilizzare modelli di base in settori vitali come la salute.

In lavori futuri, è importante perfezionare i prompt e le capacità dei modelli di base nell’incorporare ed elaborare esempi di poche istanze nei prompt. C’è anche potenziale per sinergie tra l’impostazione del prompt e il fine-tuning in settori ad alto rischio, come la salute, e dovrebbe essere esplorato come aree di ricerca cruciali. I valori di Shapley teoretici del gioco potrebbero essere utilizzati per l’allocazione del credito negli studi di ablasione e sono necessarie ulteriori ricerche per calcolare i valori di Shapley e analizzare la loro applicazione in tali studi.