Gamificare l’etichettatura dei dati medici per far avanzare l’IA

Gamificazione dell'etichettatura dei dati medici per l'avanzamento dell'IA.

La piattaforma di un ex alunno dell’MIT sfrutta la saggezza delle masse per etichettare i dati medici per le aziende di intelligenza artificiale.

Centaur Labs created an app that experts use to classify medical data in exchange for small cash prizes. Those opinions are used to train and improve life-saving AI models.

Quando Erik Duhaime, dottorando al MIT Center for Collective Intelligence, stava lavorando alla sua tesi, ha notato che sua moglie, all’epoca studentessa di medicina, trascorreva ore a studiare su app che offrivano schede di apprendimento e quiz. La sua ricerca aveva dimostrato che, come gruppo, gli studenti di medicina erano in grado di classificare lesioni cutanee in modo più accurato dei dermatologi professionisti; il trucco era misurare continuamente le prestazioni di ciascuno studente su casi con risposte conosciute, scartare le opinioni di persone che erano poco abili nel compito e combinare intelligentemente le opinioni di persone che erano brave.

Unendo le abitudini di studio di sua moglie alla sua ricerca, Duhaime ha fondato Centaur Labs, un’azienda che ha creato un’app mobile chiamata DiagnosUs per raccogliere le opinioni di esperti medici su dati scientifici e biomedici del mondo reale. Attraverso l’app, gli utenti possono recensire immagini di lesioni cutanee potenzialmente cancerose o clip audio di suoni cardiaci e polmonari che potrebbero indicare un problema. Se gli utenti sono accurati, Centaur utilizza le loro opinioni e li premia con piccoli premi in denaro. Queste opinioni, a loro volta, aiutano le aziende di intelligenza artificiale medica ad allenare e migliorare i loro algoritmi.

L’approccio combina il desiderio degli esperti medici di affinare le proprie competenze con il bisogno disperato di dati medici ben etichettati da parte delle aziende che utilizzano l’intelligenza artificiale per la biotecnologia, lo sviluppo di farmaci o la commercializzazione di dispositivi medici.

“Mi sono reso conto che lo studio di mia moglie potrebbe essere un lavoro produttivo per gli sviluppatori di intelligenza artificiale”, ricorda Duhaime. “Oggi abbiamo decine di migliaia di persone che utilizzano la nostra app, e circa la metà sono studenti di medicina che sono entusiasti di vincere denaro nel processo di studio. Quindi, abbiamo questa piattaforma gamificata in cui le persone competono tra loro per allenare i dati e vincono soldi se sono bravi, migliorando nel contempo le proprie competenze – e facendo ciò, etichettano i dati per le squadre che costruiscono intelligenza artificiale salvavita”.

Gamificazione dell’etichettatura medica

Duhaime ha completato il suo dottorato sotto la supervisione di Thomas Malone, il Patrick J. McGovern Professor of Management e direttore fondatore del Center for Collective Intelligence.

“Ciò che mi ha interessato è stato il fenomeno della saggezza delle folle”, afferma Duhaime. “Chiedi a un gruppo di persone quante caramelle ci sono in un barattolo, e la media delle risposte di tutti è abbastanza precisa. Ero interessato a come affrontare quel problema in un compito che richiede abilità o competenze. Ovviamente non si vuole semplicemente chiedere a un gruppo di persone a caso se si ha il cancro, ma allo stesso tempo sappiamo che le seconde opinioni nell’assistenza sanitaria possono essere estremamente preziose. Puoi pensare alla nostra piattaforma come a un modo superpotenziato per ottenere una seconda opinione”.

Duhaime ha iniziato ad esplorare modi per sfruttare l’intelligenza collettiva per migliorare le diagnosi mediche. In un esperimento, ha formato gruppi di persone comuni e studenti di medicina che descrive come “semi-esperti” per classificare condizioni della pelle, scoprendo che combinando le opinioni dei migliori esecutori poteva superare i dermatologi professionisti. Ha anche scoperto che combinando algoritmi addestrati per rilevare il cancro della pelle con le opinioni degli esperti, poteva superare sia il metodo singolo che l’altro.

“L’idea centrale è fare due cose”, spiega Duhaime. “La prima cosa è misurare le prestazioni delle persone, cosa che sembra ovvia, ma anche nel settore medico non viene fatta molto. Se chiedi a un dermatologo se è bravo, ti risponde ‘Certo, sono un dermatologo’. Non necessariamente sanno quanto sono bravi in compiti specifici. La seconda cosa è che quando si ottengono opinioni multiple, è necessario individuare complementarità tra le diverse persone. È necessario riconoscere che l’esperienza è multidimensionale, quindi è un po’ più simile a mettere insieme la squadra di appassionati di trivia ottimale che a ottenere le cinque persone che sono tutte le migliori nella stessa cosa. Ad esempio, un dermatologo potrebbe essere migliore nell’identificare il melanoma, mentre un altro potrebbe essere migliore nella classificazione della gravità della psoriasi”.

Mentre continuava a perseguire il suo dottorato, Duhaime ha fondato Centaur e ha iniziato a utilizzare l’ecosistema imprenditoriale del MIT per sviluppare ulteriormente l’idea. Nel 2017 ha ottenuto finanziamenti dal MIT’s Sandbox Innovation Fund e ha partecipato all’acceleratore per startup delta v gestito dal Martin Trust Center for MIT Entrepreneurship durante l’estate del 2018. L’esperienza lo ha aiutato a entrare nel prestigioso acceleratore Y Combinator l’anno successivo.

L’app DiagnosUs, sviluppata da Duhaime con i co-fondatori di Centaur Zach Rausnitz e Tom Gellatly, è progettata per aiutare gli utenti a testare e migliorare le loro competenze. Duhaime afferma che circa la metà degli utenti sono studenti di medicina e l’altra metà sono principalmente medici, infermieri e altri professionisti medici.

“È meglio dello studio per gli esami, dove potresti avere domande a risposta multipla”, afferma Duhaime. “Possono vedere casi reali e fare pratica”.

Centaur raccoglie milioni di opinioni ogni settimana da decine di migliaia di persone in tutto il mondo. Duhaime afferma che la maggior parte delle persone guadagna soldi per il caffè, anche se la persona che ha guadagnato di più dalla piattaforma è un medico dell’Europa orientale che ha guadagnato circa $10.000.

“Le persone possono farlo sul divano, possono farlo in viaggio”, dice Duhaime. “Non sembra lavoro, è divertente”.

L’approccio si contrappone nettamente all’etichettatura tradizionale dei dati e alla moderazione dei contenuti AI, che solitamente vengono esternalizzati in paesi a bassa risorsa.

L’approccio di Centaur produce anche risultati accurati. In un articolo con ricercatori dell’ospedale Brigham and Women’s, dell’ospedale generale del Massachusetts (MGH) e dell’Università di Tecnologia di Eindhoven, Centaur ha dimostrato che le opinioni provenienti dalla folla etichettavano gli ultrasuoni polmonari in modo affidabile come facevano gli esperti. Uno studio con ricercatori presso il Memorial Sloan Kettering ha dimostrato che l’etichettatura della folla delle immagini dermoscopiche era più accurata di quella dei dermatologi altamente esperti. Oltre alle immagini, la piattaforma di Centaur funziona anche con video, audio, testi provenienti da fonti come articoli di ricerca o conversazioni anonime tra medici e pazienti, e onde provenienti da elettroencefalogrammi (EEG) ed elettrocardiogrammi (ECG).

Trovare gli esperti

Centaur ha scoperto che i migliori performers provengono da luoghi sorprendenti. Nel 2021, per raccogliere opinioni esperte sui pattern EEG, i ricercatori hanno organizzato un concorso tramite l’app DiagnosUs in una conferenza che vedeva la partecipazione di circa 50 epilettologi, ognuno con più di 10 anni di esperienza. Gli organizzatori hanno creato una maglietta personalizzata da regalare al vincitore del concorso, che presumibilmente sarebbe stato presente alla conferenza.

Ma quando sono arrivati i risultati, una coppia di studenti di medicina in Ghana, Jeffery Danquah e Andrews Gyabaah, avevano battuto tutti i presenti. L’ospite della conferenza con il punteggio più alto era arrivato nono.

“Ho iniziato a farlo per i soldi, ma ho capito che mi stava aiutando molto”, ha detto Gyabaah al team di Centaur in seguito. “Ci sono stati momenti in clinica in cui mi sono reso conto di fare meglio degli altri grazie a ciò che ho imparato sull’app DiagnosUs”.

Con l’avanzare dell’IA e il cambiamento della natura del lavoro, Duhaime crede che Centaur Labs verrà utilizzato come controllo continuo sui modelli di intelligenza artificiale.

“Al momento, aiutiamo le persone ad addestrare gli algoritmi principalmente, ma sempre di più penso che saremo utilizzati per monitorare gli algoritmi e in collaborazione con gli algoritmi, fungendo sostanzialmente da esseri umani nel ciclo di lavoro per una serie di compiti”, afferma Duhaime. “Potresti pensare a noi meno come un modo per addestrare l’IA e più come una parte del ciclo di vita completo, in cui forniamo feedback sugli output dei modelli o monitoriamo il modello”.

Duhaime vede il lavoro degli esseri umani e degli algoritmi di intelligenza artificiale sempre più integrati e crede che Centaur Labs abbia un ruolo importante da svolgere in quel futuro.

“Non si tratta solo di addestrare l’algoritmo, metterlo in funzione”, afferma Duhaime. “Invece, ci saranno queste catene di montaggio digitali in tutta l’economia e avrai bisogno di un giudizio umano esperto su richiesta inserito in diversi punti lungo la catena del valore”.