Spiegabilità del modello, ripresa SHAP e oltre

Model interpretability, SHAP recovery and beyond

L’ascesa rapida dei grandi modelli linguistici ha dominato gran parte della conversazione intorno all’intelligenza artificiale negli ultimi mesi, il che è comprensibile, dato il carattere innovativo dei LLM e la velocità con cui sono stati integrati nelle attività quotidiane degli specialisti di data science e machine learning.

Tuttavia, rimangono cruciali le preoccupazioni di lunga data riguardo alle prestazioni dei modelli e ai rischi che comportano, e l’interpretabilità è al centro di queste questioni: come e perché i modelli producono le previsioni che ci offrono? Cosa c’è dentro la scatola nera?

Questa settimana, torniamo sull’argomento dell’interpretabilità dei modelli con diversi articoli recenti che affrontano le sue sfumature con precisione e offrono approcci pratici per gli operatori. Buono studio!

  • Alla base di ogni sfida di interpretabilità c’è la domanda su quali caratteristiche dei tuoi dati contribuiscano di più alla previsione di un modello. L’introduzione all’analisi dell’importanza delle caratteristiche con SHAP di Khouloud El Alami è una risorsa adatta ai principianti, basata sul progetto di ricerca dell’autore presso Spotify.
  • Se hai già lavorato con SHAP in passato e stai cercando di ampliare il tuo set di strumenti, Conor O’Sullivan offre una guida pratica per gestire casi d’uso più specializzati, ovvero come visualizzare i grafici SHAP per problemi di classificazione e aggregare i valori SHAP per obiettivi multiclasse.
  • Per una prospettiva fresca sulle possibilità che l’interpretabilità dei modelli apre, non perderti il recente articolo di Diksha Sen Chaudhury su un progetto che unisce dati sanitari e machine learning. L’obiettivo di Diksha era mostrare come l’utilizzo di SHAP può rendere un modello non solo interpretabile, ma anche utile per i ricercatori che desiderano confrontare i risultati con le scoperte della letteratura medica.
Foto di Alina Kovalchuk su Unsplash
  • Come afferma Vegard Flovik, “per applicazioni all’interno di industrie con asset pesanti ad alto rischio, dove gli errori possono portare a risultati disastrosi, la mancanza di trasparenza può essere un ostacolo significativo all’adozione”. Per colmare questa lacuna, Vegard fornisce una guida dettagliata al framework open-source Iguanas e mostra come puoi sfruttare le sue capacità di generazione automatica di regole per aumentare l’interpretabilità.
  • Anche se i valori SHAP si sono rivelati vantaggiosi in molti scenari del mondo reale, presentano anche limitazioni. Samuele Mazzanti avverte di non dare troppo peso (gioco di parole!) all’importanza delle caratteristiche e raccomanda di prestare attenzione anche al contributo degli errori, poiché “il fatto che una caratteristica sia importante non implica che sia benefica per il modello”.

Sappiamo che l’inizio di settembre è un periodo frenetico per molti di voi, ma se avete un po’ più di tempo libero, non potete sbagliare con nessuna delle altre letture consigliate questa settimana:

  • Se state frequentando un corso di data science in questo momento o state pensando di farlo in futuro, la guida completa di Alexandra Oberemok su come sfruttare al massimo l’esperienza è un must-read.
  • Corridori, questo è per voi: la nuova approfondita analisi di barrysmyth esplora i dati della maratona per valutare diverse strategie per ottimizzare le vostre prestazioni.
  • Per il suo primo articolo su TDS, Christian Burke ci porta dietro le quinte di un innovativo progetto di arte generativa basato su intelligenza artificiale al MOMA, in cui ha svolto un ruolo chiave.
  • Olga Chernytska ha condiviso un nuovo episodio della sua eccellente serie “Building Better ML Systems”, questa volta concentrandosi su baselines, metriche e set di test.
  • Non sapete come gestire i dati mancanti? Miriam Santos fornisce una risorsa completa su questa questione perenne e spiega come identificare e segnalare i valori mancanti nei dataset del mondo reale.
  • Se volete approfondire in modo dettagliato un argomento tecnico, la panoramica di Antonieta Mastrogiuseppe sull’algoritmo del gradiente discendente è chiara e ben eseguita.

Grazie per il vostro supporto al lavoro dei nostri autori! Se vi piacciono gli articoli che leggete su TDS, prendete in considerazione l’idea di diventare membri di VoAGI: sblocca l’intero archivio (e ogni altro post su VoAGI, anche).