Ricercatori del MIT raggiungono una svolta nella protezione della privacy per i modelli di apprendimento automatico con la privacy Probabilmente Approssimativamente Corretta (PAC)

I ricercatori del MIT hanno ottenuto una svolta nella protezione della privacy per i modelli di apprendimento automatico con PAC.

I ricercatori del MIT hanno compiuto progressi significativi nel affrontare la sfida di proteggere i dati sensibili codificati all’interno dei modelli di apprendimento automatico. Un team di scienziati ha sviluppato un modello di apprendimento automatico che può prevedere con precisione se un paziente ha il cancro dalle immagini della scansione del polmone. Tuttavia, la condivisione del modello con gli ospedali di tutto il mondo pone un rischio significativo di possibile estrazione dei dati da parte di agenti malintenzionati. Per affrontare questo problema, i ricercatori hanno introdotto una nuova metrica di privacy chiamata Privacy Probabilmente Approssimativamente Corretta (PAC), insieme a un framework che determina la quantità minima di rumore necessaria per proteggere i dati sensibili.

Gli approcci di privacy convenzionali, come la Privacy Differenziale, si concentrano sulla prevenzione di un avversario dal distinguere l’uso di dati specifici aggiungendo enormi quantità di rumore, il che riduce l’accuratezza del modello. La Privacy PAC adotta un punto di vista diverso valutando la difficoltà di un avversario nel ricostruire parti dei dati sensibili anche dopo l’aggiunta del rumore. Ad esempio, se i dati sensibili sono volti umani, la privacy differenziale impedirebbe all’avversario di determinare se il volto di un individuo specifico era nel dataset. Al contrario, la Privacy PAC esplora se un avversario potrebbe estrarre una sagoma approssimativa che potrebbe essere riconosciuta come il volto di un individuo specifico.

Per implementare la Privacy PAC, i ricercatori hanno sviluppato un algoritmo che determina la quantità ottimale di rumore da aggiungere a un modello, garantendo la privacy anche contro avversari con potenza di calcolo infinita. L’algoritmo si basa sull’incertezza o entropia dei dati originali dal punto di vista dell’avversario. Campionando i dati e eseguendo l’algoritmo di addestramento di apprendimento automatico più volte, l’algoritmo confronta la varianza tra diversi output per determinare la quantità di rumore necessaria. Una varianza più piccola indica che è richiesto meno rumore.

Uno dei principali vantaggi dell’algoritmo di Privacy PAC è che non richiede conoscenza del funzionamento interno del modello o del processo di addestramento. Gli utenti possono specificare il livello di confidenza desiderato riguardo alla capacità dell’avversario di ricostruire i dati sensibili e l’algoritmo fornisce la quantità ottimale di rumore per raggiungere tale obiettivo. Tuttavia, è importante notare che l’algoritmo non stima la perdita di accuratezza risultante dall’aggiunta di rumore al modello. Inoltre, l’implementazione della Privacy PAC può essere computazionalmente costosa a causa dell’addestramento ripetuto dei modelli di apprendimento automatico su vari dataset sottocampionati.

Per migliorare la Privacy PAC, i ricercatori suggeriscono di modificare il processo di addestramento di apprendimento automatico per aumentare la stabilità, riducendo la varianza tra gli output dei sottocampioni. Questo approccio ridurrebbe l’onere computazionale dell’algoritmo e minimizzerebbe la quantità di rumore necessaria. Inoltre, i modelli più stabili spesso presentano errori di generalizzazione inferiori, conducendo a previsioni più accurate su nuovi dati.

Pur riconoscendo la necessità di ulteriori esplorazioni sulla relazione tra stabilità, privacy ed errore di generalizzazione, il lavoro dei ricercatori rappresenta un passo promettente avanti nella protezione dei dati sensibili nei modelli di apprendimento automatico. Sfruttando la Privacy PAC, gli ingegneri possono sviluppare modelli che salvaguardano i dati di addestramento mantenendo l’accuratezza nelle applicazioni reali. Con il potenziale di ridurre significativamente la quantità di rumore richiesta, questa tecnica apre nuove possibilità per la condivisione sicura dei dati nel settore sanitario e oltre.