Sommario del documento Un approccio ibrido con GAN e DP per la preservazione della privacy dei dati IIoT

Sommario Un approccio ibrido di GAN e DP per la privacy dei dati IIoT.

L’anonimizzazione è un problema significativo quando si gestiscono dati dell’Internet delle Cose Industriali (IIoT). Le applicazioni di Machine Learning (ML) richiedono dati decriptati per svolgere compiti in modo efficiente, il che significa che terze parti coinvolte nell’elaborazione dei dati possono avere accesso a informazioni sensibili. Ciò comporta un rischio di violazione della privacy e di perdita di informazioni per le aziende che generano i dati. Di conseguenza, a causa di queste preoccupazioni, le aziende sono riluttanti a condividere i loro dati IIoT con terze parti.

Lo stato dell’arte nell’affrontare il problema dell’anonimizzazione coinvolge vari approcci come la crittografia, la crittografia omomorfica, le tecniche crittografiche e l’apprendimento distribuito/federato. Tuttavia, questi metodi hanno limitazioni in termini di costi computazionali, spiegabilità dei modelli di ML e vulnerabilità agli attacchi informatici. Inoltre, le tecniche esistenti di conservazione della privacy spesso comportano un compromesso tra privacy e precisione, dove il raggiungimento di una elevata protezione della privacy comporta una significativa perdita di accuratezza del modello di ML. Queste sfide ostacolano la conservazione efficace ed efficiente della privacy dei dati IIoT.

In questo contesto, un team di ricerca della Kadir Has University in Turchia ha proposto un nuovo metodo che combina Generative Adversarial Networks (GAN) e Differential Privacy (DP) per preservare i dati sensibili nelle operazioni IIoT. L’approccio ibrido mira a raggiungere la conservazione della privacy con una perdita minima di accuratezza e bassi costi computazionali aggiuntivi. La GAN viene utilizzata per generare copie sintetiche di dati sensibili, mentre DP introduce rumore casuale e parametri per mantenere la privacy. Il metodo proposto viene testato utilizzando set di dati disponibili pubblicamente e un set di dati IIoT realistico raccolto da un processo di produzione di dolciumi.

Gli autori propongono un approccio ibrido per la conservazione della privacy negli ambienti IIoT. Il loro metodo prevede due componenti principali: GAN e DP.

  1. GAN: Utilizzano la GAN, in particolare l’approccio Conditional Tabular GAN (CTGAN), per creare una copia sintetica (XG) del set di dati originale (XO). La GAN apprende la distribuzione dei dati e genera dati sintetici con statistiche simili all’originale.
  2. DP: Per migliorare la privacy, aggiungono rumore casuale da una distribuzione di Laplace alle caratteristiche sensibili nei dati. Questa tecnica preserva la privacy mantenendo la distribuzione di probabilità complessiva dei dati.

L’approccio proposto prevede quanto segue:

  • Creazione di un set di dati sintetico con GAN.
  • Sostituzione delle caratteristiche sensibili.
  • Applicazione della differential privacy aggiungendo rumore casuale.

Il set di dati risultante è protetto per la privacy e può essere utilizzato per l’analisi del machine learning senza compromettere informazioni sensibili. La complessità dell’algoritmo dipende dal numero di caratteristiche sensibili e dalla dimensione del set di dati. Gli autori sottolineano che il loro metodo garantisce una protezione complessiva della privacy per i dati IIoT.

L’evaluazione effettuata in questo paper ha coinvolto l’esecuzione di esperimenti per testare l’approccio ibrido proposto per la sintesi e la previsione dei dati preservando la privacy. Gli esperimenti sono stati effettuati su quattro set di dati SCADA: turbina eolica, produzione di vapore, efficienza energetica e motori sincroni. Gli esperimenti hanno utilizzato la generazione di dati sintetici CTGAN e le tecniche di differential privacy (DP). I criteri di valutazione includono la misurazione dell’accuratezza utilizzando la metrica R-quadrato e la preservazione della privacy utilizzando sei metriche di privacy. I risultati hanno mostrato che l’approccio ibrido proposto ha raggiunto una maggiore accuratezza e preservazione della privacy rispetto ad altri metodi, come CTGAN e DP. Gli esperimenti hanno anche testato le prestazioni del metodo proposto su set di dati con caratteristiche sensibili nascoste e hanno dimostrato la sua capacità di proteggere tali dati sensibili.

In conclusione, il paper ha proposto un nuovo approccio ibrido che combina GAN e DP per affrontare il problema dell’anonimizzazione nei dati dell’Internet delle Cose Industriali (IIoT). Il metodo proposto prevede la creazione di un set di dati sintetico utilizzando GAN e l’applicazione di DP attraverso l’aggiunta di rumore casuale alle caratteristiche sensibili. I risultati dell’evaluazione hanno dimostrato che l’approccio ibrido proposto ha raggiunto una maggiore accuratezza e preservazione della privacy rispetto ad altri metodi. Questo approccio offre una soluzione promettente per preservare i dati sensibili negli ambienti IIoT, riducendo al minimo la perdita di accuratezza e i costi computazionali.