Machine Unlearning nel 2023 Dove siamo e dove stiamo andando

Machine Unlearning nel 2023 prospettive future

Un riassunto dei paradigmi e dei metodi di machine unlearning, la motivazione per il machine unlearning, le sfide attuali e le prospettive future.

Foto di Bret Kavanaugh su Unsplash (modificata dall'autore)

Ti sei mai svegliato di notte, tormentato dal tuo cervello che riproduce in loop un ricordo terribilmente imbarazzante che vorresti solo dimenticare? Conservare certi ricordi nella nostra mente può essere spiacevole, controproducente o persino dannoso. Se solo il nostro cervello umano avesse la capacità di dimenticare tutto, lo vorremmo.

Bene, si scopre che anche le macchine e i modelli di machine learning affrontano la stessa sfida: dimenticare ricordi controproducenti o dannosi non è sempre semplice e immediato come un semplice clic su “elimina”.

Quindi, cos’è questo campo che aiuta le macchine a dimenticare?

Indice

  1. Introduzione al machine unlearning
  2. Applicazioni e motivazioni
  3. Algoritmi e valutazione
  4. Sfide attuali

Introduzione al machine unlearning

Cos’è il machine unlearning e in cosa differisce dal machine learning? Perché abbiamo bisogno del machine unlearning e quale valore può sbloccare? Qual è l’intuizione alla base dei metodi e dei paradigmi esistenti per il machine unlearning?

Il machine unlearning è un campo relativamente nuovo che essenzialmente insegna a un modello addestrato a “dimenticare” un certo sottoinsieme dell’insieme di dati di input su cui è stato addestrato, senza influire significativamente sulle prestazioni. Ci sono diverse motivazioni: alcune informazioni personali non sono più disponibili a causa di aggiornamenti delle politiche sulla privacy dei dati; alcuni dati sono stati dimostrati essere obsoleti o inesatti e dannosi per il modello; o un modello è stato addestrato involontariamente su dati che perpetuano dei pregiudizi e vogliamo rimuovere il sottoinsieme specifico che causa il pregiudizio.

Potresti chiederti: sembra un semplice compito di eliminare il sottoinsieme di dati problematici e addestrare nuovamente un modello utilizzando l’insieme di dati aggiornato. Perché complicarlo?

Come si scopre, molti modelli, come i grandi modelli di linguaggio come ChatGPT, richiedono spesso risorse computazionali considerevoli per essere addestrati in primo luogo. Spesso il sottoinsieme di dati da dimenticare costituisce solo una piccola frazione dell’insieme di addestramento totale; quindi l’approccio “riaddestra da zero” diventa una soluzione eccessivamente costosa e ripetitiva, rendendo necessario un algoritmo migliore che rimuova il sottoinsieme da dimenticare preservando le prestazioni del modello originale.

Applicazioni e motivazioni

Cosa sono alcuni casi d’uso che motivano lo sviluppo del machine unlearning? In che modo il machine unlearning contribuisce in modo unico a questi settori e compiti? Quali sono le potenziali future applicazioni che vengono esplorate e cosa possiamo aspettarci?

Abbiamo menzionato l’idea che, grazie alle risorse computazionali in rapida crescita, il vantaggio che il machine unlearning ha rispetto a un riaddestramento completo da zero è molto più significativo su insiemi di dati più grandi, spesso in applicazioni reali.

Analizziamo alcune delle principali aree di applicazione che richiedono il machine unlearning:

  • Modelli equi ed etici (rimozione di pregiudizi): Quando addestrati su grandi quantità di dati reali, a volte i modelli acquisiscono i pregiudizi intrinseci all’insieme di dati. Man mano che il modello cresce, l’algoritmo può amplificare a volte il pregiudizio. In alcuni casi, le conseguenze dei pregiudizi del modello possono essere particolarmente dannose, ad esempio nei modelli utilizzati per la prevenzione dei crimini o per la selezione di candidati in un processo di assunzione. Quando questi pregiudizi vengono identificati, dovrebbero essere immediatamente rimossi e il machine unlearning può offrire un modo potenziale per farlo e mitigare i danni.
  • Aggiornamenti dei dati (apprendimento continuo): I dati per un modello possono diventare obsoleti dopo correzioni o aggiornamenti apportati all’insieme di dati per una varietà di motivi. Attraverso l’unlearning e la dimenticanza di questi punti dati controproducenti, i modelli possono adattarsi a questi cambiamenti e produrre previsioni più accurate. Questo è particolarmente utile in modelli di apprendimento dinamici come l’apprendimento continuo; eliminare dati obsoleti o errati migliora sia l’accuratezza che l’efficienza del calcolo.
  • Privacy dei dati (diritto all’oblio): Questo è forse ciò con cui il machine unlearning è stato più comunemente associato. In un mondo digitale in rapida evoluzione, le leggi e i regolamenti che governano le pratiche digitali vengono costantemente aggiornati. Dimenticare determinati attributi dei dati personali aiuta i modelli a rimanere conformi alle normative come il GDPR³, proteggendo contro le violazioni dei dati o le preoccupazioni di anonimizzazione.

Algoritmi e Metriche di Valutazione

Quali sono i principali paradigmi algoritmici nell’eliminazione dell’apprendimento automatico e come vengono implementati? Quali sono i punti di forza e di debolezza di ciascuno? Quali metriche sono state proposte per valutare le prestazioni dell’eliminazione dell’apprendimento automatico?

Metodi

In sostanza, la logica alla base dell’eliminazione dei dati senza un completo ritraining è quella di diminuire la correlazione tra determinate caratteristiche e l’output. Esaminiamo una tecnica principale, nota come “data poisoning”:

  • Questo è il punto in cui aggiungiamo intenzionalmente dati inaccurati per “confondere” il modello riguardo a una determinata caratteristica o attributo. Ecco un esempio: un modello addestrato su un set di dati di segnalazioni di crimine osserva una tendenza in cui le persone tra i 50 e i 60 anni hanno una forte probabilità di commettere crimini. Di conseguenza, il modello prende di mira ingiustamente il gruppo di età tra i 50 e i 60 anni nelle future previsioni di rilevamento del crimine. Per mitigare questo pregiudizio, possiamo generare un set di dati sintetico delle statistiche di crimine tra gli altri gruppi di età, corrispondente a quello del gruppo di età tra i 50 e i 60 anni senza interferire con altre caratteristiche. Questo indebolisce la forza della correlazione tra la condanna e il gruppo di età tra i 50 e i 60 anni.

Metriche di Valutazione

Dato che questo è un campo relativamente nuovo, ogni giorno vengono proposti molti standard di valutazione per valutare meglio le prestazioni dell’eliminazione dell’apprendimento automatico. Di seguito, mettiamo in evidenza alcune delle metriche di valutazione proposte per misurare la qualità e l’efficacia dei metodi di eliminazione dell’apprendimento automatico:

  • Tasso di dimenticanza: misura la proporzione di campioni di dati che appartenevano originariamente a un set di dati ma non vengono più riconosciuti dopo il processo di eliminazione dell’apprendimento.
  • Attacco di inferenza di appartenenza: misura il grado in cui un avversario può inferire correttamente se un campione di dati fa parte dell’insieme di addestramento per il modello. Questa metrica è particolarmente rilevante in contesti di sicurezza.

Sfide Attuali

Quali sono le principali sfide che il campo dell’Eliminazione dell’Apprendimento Automatico affronta nel complesso? Quali sono le sfide che emergono in contesti o applicazioni specifiche?

L’eliminazione dell’apprendimento automatico può essere un compito piuttosto complesso per diversi motivi. Infatti, nel luglio 2023 Google lancia una competizione pubblica con l’obiettivo di unificare e far avanzare metodi di eliminazione dell’apprendimento automatico efficaci.

  • Mancanza di una valutazione standardizzata. Anche se un certo numero di pubblicazioni hanno affrontato l’idea di una metrica di valutazione unificata utilizzando set di dati ben noti come CIFAR10 e CIFAR100 come benchmark, manca uno standard di valutazione universale che possa unificare i risultati prodotti da diversi ricercatori nel campo. Infatti, questo è uno degli obiettivi dell’ultima sfida di eliminazione dell’apprendimento automatico di Google: fornire una piattaforma per confrontare diversi metodi “alla pari”.
  • Suscettibilità agli attacchi avversari. La ricerca ha scoperto che i modelli che sono stati addestrati a eliminare alcuni sottoinsiemi di dati possono cadere vittima di attacchi mimetizzati a causa del meccanismo di avvelenamento coinvolto nell’eliminazione.

Direzioni Future

Questi ostacoli attuali forniscono potenziali direzioni per interessanti domande di ricerca future:

  • Come possiamo addestrare modelli per difendersi dagli attacchi di avvelenamento mimetizzato?
  • Come possiamo sfruttare le risorse computazionali per ottimizzare l’efficienza dell’eliminazione?
  • Come possiamo pulire ed generare dati in modo efficace per superare la mancanza di dati di addestramento?
  • Come possiamo unificare un insieme di standard per valutare gli algoritmi di eliminazione per garantire una valutazione coerente?

Conclusione

Grazie per essere arrivato fin qui! In questo articolo abbiamo esaminato il campo dell’eliminazione dell’apprendimento automatico, comprese le sue principali motivazioni e aree di applicazione, i metodi e i paradigmi esistenti e le sfide attuali.

In seguito in questa serie, approfondiremo gli aspetti tecnici degli algoritmi di eliminazione esistenti e le implementazioni in Python con set di dati statistici e immagini reali. Buon coding✌🏼!

Bibliografia

[1] Shaik, T., Tao, X., Xie, H., Li, L., Zhu, X., & Li, Q. (2023). Esplorazione del panorama dell’Eliminazione dell’Apprendimento Automatico: Un’indagine completa e una tassonomia. https://doi.org/10.48550/ARXIV.2305.06360

[2] Annuncio della prima sfida di Eliminazione dell’Apprendimento Automatico. (2023, 29 giugno). Ai.googleblog.com. https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html

[3] Agenzia dell’Unione Europea per i diritti fondamentali. (2019). Il Regolamento generale sulla protezione dei dati: Un anno per la società civile: consapevolezza, opportunità e sfide. Ufficio delle pubblicazioni. https://data.europa.eu/doi/10.2811/538633