Nuovo strumento aiuta le persone a scegliere il metodo giusto per valutare i modelli di intelligenza artificiale.

A new tool helps people choose the right method to evaluate artificial intelligence models.

Selezionare il metodo giusto fornisce agli utenti un’immagine più accurata del comportamento del loro modello, in modo che siano meglio equipaggiati per interpretare correttamente le sue previsioni.

New “saliency cards” provide concise summaries of machine-learning saliency methods in terms of 10 user-focused attributes.

Quando i modelli di apprendimento automatico sono implementati in situazioni del mondo reale, ad esempio per segnalare potenziali malattie in radiografie per essere valutate da un radiologo, gli utenti umani devono sapere quando fidarsi delle previsioni del modello.

Tuttavia, i modelli di apprendimento automatico sono così grandi e complessi che persino gli scienziati che li progettano non capiscono esattamente come i modelli fanno previsioni. Pertanto, creano tecniche note come metodi di rilevanza che cercano di spiegare il comportamento del modello.

Con l’uscita di nuovi metodi continuamente, ricercatori del MIT e IBM Research hanno creato uno strumento per aiutare gli utenti a scegliere il miglior metodo di rilevanza per il loro compito specifico. Hanno sviluppato carte di rilevanza, che forniscono documentazione standardizzata su come un metodo opera, inclusi i suoi punti di forza e di debolezza e spiegazioni per aiutare gli utenti a interpretarlo correttamente.

Sperano che, armati di queste informazioni, gli utenti possano scegliere consapevolmente un metodo di rilevanza appropriato sia per il tipo di modello di apprendimento automatico che stanno utilizzando sia per il compito che il modello sta svolgendo, spiega co-autore Angie Boggust, uno studente di dottorato in ingegneria elettrica e informatica al MIT e membro del gruppo di visualizzazione del Laboratorio di informatica e intelligenza artificiale del MIT (CSAIL).

Interviste con ricercatori di intelligenza artificiale ed esperti di altri campi hanno rivelato che le carte aiutano le persone a condurre rapidamente un confronto diretto tra diversi metodi e scegliere una tecnica appropriata per il compito. La scelta del metodo giusto dà agli utenti un’immagine più accurata di come si comporta il loro modello, quindi sono meglio equipaggiati per interpretare correttamente le sue previsioni.

“Le carte di rilevanza sono progettate per dare un riassunto rapido e immediato di un metodo di rilevanza e anche suddividerlo negli attributi più critici e centrati sull’utente. Sono veramente progettati per tutti, dai ricercatori di apprendimento automatico agli utenti comuni che cercano di capire quale metodo usare e sceglierne uno per la prima volta”, afferma Boggust.

A firmare il paper insieme a Boggust ci sono co-autore Harini Suresh, un postdoc del MIT; Hendrik Strobelt, un ricercatore senior presso IBM Research; John Guttag, il Dugald C. Jackson Professor di Informatica ed Ingegneria Elettrica al MIT; e l’autore senior Arvind Satyanarayan, professore associato di informatica al MIT che guida il gruppo di visualizzazione in CSAIL. La ricerca sarà presentata alla Conferenza ACM sulla Giustizia, Responsabilità e Trasparenza.

Scegliere il metodo giusto

I ricercatori hanno precedentemente valutato i metodi di rilevanza utilizzando il concetto di fedeltà. In questo contesto, la fedeltà cattura quanto accuratamente un metodo riflette il processo decisionale di un modello.

Tuttavia, la fedeltà non è un concetto bianco e nero, spiega Boggust. Un metodo potrebbe funzionare bene in un test di fedeltà, ma fallirne un altro. Con così tanti metodi di rilevanza e così tante valutazioni possibili, gli utenti spesso scelgono un metodo perché è popolare o un collega lo ha usato.

Tuttavia, scegliere il “metodo sbagliato” può avere conseguenze serie. Ad esempio, un metodo di rilevanza, noto come gradienti integrati, confronta l’importanza delle caratteristiche in un’immagine con una linea di base senza significato. Le caratteristiche con l’importanza maggiore sulla linea di base sono più significative per la previsione del modello. Questo metodo utilizza tipicamente tutti 0 come linea di base, ma se applicato alle immagini, tutti 0 corrisponde al colore nero.

“Ti dirà che i pixel neri nella tua immagine non sono importanti, anche se lo sono, perché sono identici a quella linea di base senza significato. Questo potrebbe essere un grosso problema se stai guardando le radiografie poiché il nero potrebbe essere significativo per i clinici”, afferma Boggust.

Le carte di rilevanza possono aiutare gli utenti a evitare questo tipo di problemi riassumendo come funziona un metodo di rilevanza in termini di 10 attributi centrati sull’utente. Gli attributi catturano il modo in cui viene calcolata la rilevanza, la relazione tra il metodo di rilevanza e il modello e come un utente percepisce i suoi output.

Ad esempio, un attributo è la dipendenza dagli iperparametri, che misura quanto sensibile quel metodo di rilevanza è ai parametri specificati dall’utente. Una carta di rilevanza per i gradienti integrati descriverebbe i suoi parametri e come questi influenzano le sue prestazioni. Con la carta, un utente potrebbe vedere rapidamente che i parametri predefiniti – una linea di base di tutti 0 – potrebbero generare risultati fuorvianti quando si valutano le radiografie.

Le carte potrebbero anche essere utili per gli scienziati esponendo lacune nello spazio di ricerca. Ad esempio, i ricercatori del MIT non sono stati in grado di identificare un metodo di rilevanza che fosse efficiente dal punto di vista computazionale, ma che potesse essere applicato a qualsiasi modello di apprendimento automatico.

“Possiamo colmare questa lacuna? Esiste un metodo di salienza che può fare entrambe le cose? O forse queste due idee sono teoricamente in conflitto l’una con l’altra”, afferma Boggust.

Mostrare le proprie carte

Dopo aver creato diverse schede, il team ha condotto uno studio utente con otto esperti del settore, dai computer scientist a un radiologo che non era familiare con il machine learning. Durante le interviste, tutti i partecipanti hanno dichiarato che le descrizioni concise li hanno aiutati a dare priorità agli attributi e a confrontare i metodi. E anche se il radiologo non era familiare con il machine learning, è stato in grado di comprendere le schede e usarle per partecipare al processo di scelta di un metodo di salienza, dice Boggust.

Le interviste hanno anche rivelato alcune sorprese. I ricercatori spesso si aspettano che i clinici desiderino un metodo che sia nitido, cioè che si concentri su un particolare oggetto in un’immagine medica. Ma il medico in questo studio in realtà preferiva un po’ di rumore nelle immagini mediche per aiutarlo a attenuare l’incertezza.

“Dividendo il tutto in questi diversi attributi e chiedendo alle persone, nessuno ha avuto le stesse priorità di chiunque altro nello studio, anche quando erano nella stessa posizione” afferma.

In futuro, i ricercatori vogliono esplorare alcuni degli attributi meno valutati e forse progettare metodi di salienza specifici per compiti. Vogliono anche sviluppare una migliore comprensione di come le persone percepiscono le uscite del metodo di salienza, il che potrebbe portare a migliori visualizzazioni. Inoltre, stanno ospitando il loro lavoro in un repository pubblico in modo che altri possano fornire feedback che guiderà il lavoro futuro, dice Boggust.

“Siamo davvero fiduciosi che questi saranno documenti viventi che cresceranno man mano che vengono sviluppati nuovi metodi e valutazioni di salienza. In fin dei conti, questo è solo l’inizio di una conversazione più ampia su quali sono gli attributi di un metodo di salienza e come questi si inseriscono in compiti diversi”, afferma.

La ricerca è stata supportata, in parte, dal MIT-IBM Watson AI Lab, dal Laboratorio di Ricerca dell’U.S. Air Force e dall’Acceleratore di Intelligenza Artificiale dell’U.S. Air Force.