Quanta dati abbiamo bisogno? Bilanciare l’apprendimento automatico con le considerazioni sulla sicurezza

Quanta dati sono necessari? Trovare un equilibrio tra machine learning e considerazioni sulla sicurezza

Per un data scientist, non esiste una quantità eccessiva di dati. Ma quando prendiamo in considerazione il contesto organizzativo, dobbiamo bilanciare i nostri obiettivi con altre considerazioni.

Foto di Trnava University su Unsplash

Data Science vs Sicurezza/IT: Una Battaglia Epica

Acquisire e conservare i dati è l’obiettivo di una grande quantità della nostra energia mentale come data scientist. Se chiedi a un data scientist “Possiamo risolvere questo problema?” la prima domanda che la maggior parte di noi farà è “Hai dei dati?” seguita da “Quanti dati hai?” Vogliamo raccogliere dati perché è il requisito indispensabile per la maggior parte dei tipi di lavoro che vogliamo fare, al fine di produrre modelli validi e risultati benefici. Ci piace scavare in quei dati, capire cosa c’è veramente dentro e cosa significa, scoprire come sono stati generati o raccolti e trarne conclusioni generalizzabili.

Analizzando seriamente la privacy dei dati, però, mettiamo le nostre abitudini e scelte in un contesto diverso. Gli istinti e i desideri dei data scientist spesso si scontrano con le esigenze della privacy dei dati e della sicurezza. Chiunque abbia lottato per ottenere l’accesso a un database o a un data warehouse per costruire un modello può capire. Può sembrare che vengano creati ostacoli eccessivamente cautelativi sulla nostra strada per svolgere il nostro lavoro. Dopotutto, il motivo per cui abbiamo i dati è imparare da essi e modellarli? Anche i migliori di noi talvolta demonizzano le parti della nostra organizzazione i cui obiettivi principali riguardano la privacy e la sicurezza e che confliggono con il nostro desiderio di immergerci nel lago dei dati.

In realtà, i data scientist non sono sempre i protagonisti e i team IT e di sicurezza non sono i cattivi. Stiamo entrambi lavorando a obiettivi importanti e possiamo entrambi avere una visione un po’ ristretta in quella ricerca. Aiuta considerare le prospettive di entrambi i ruoli per capire la tensione presente e gli interessi in conflitto.

La Prospettiva del Data Science

Dall’angolo del data science, è spesso necessario avere grandi quantità di dati per raggiungere gli obiettivi del nostro lavoro. Per costruire un modello generalizzabile, è necessario avere molti, molti esempi dei tipi di dati a cui il tuo modello dovrà rispondere in produzione. Centinaia di migliaia o milioni di casi non sono affatto una quantità esagerata da cercare. Tuttavia, per rendere davvero efficace questo lavoro, i data scientist devono dedicare molto tempo ed energia all’interrogazione di quei dati. Avere un sacco di dati è fantastico, ma se non sai cosa rappresentano veramente e la loro provenienza, la battaglia per fare data science efficacemente sarà molto in salita.

La Prospettiva della Sicurezza

Se adottiamo la prospettiva orientata alla sicurezza, d’altra parte, dobbiamo ammettere che maggiore è la quantità di dati che abbiamo – specialmente se ci sono più sistemi di archiviazione o processi che influenzano i dati – maggiore è il rischio di una violazione dei dati. Fondamentalmente, più dati abbiamo, maggiore è la possibilità che parte di essi vada persa o che venga acceduta da qualcuno in modo inappropriato. Inoltre, più persone hanno accesso ai dati, più opportunità ci sono di violazione o perdita di dati, perché gli esseri umani sono il più grande vettore di rischio nel campo della tecnologia. Siamo il punto debole della catena.

Cosa significa tutto questo? Sostengo che ci porta a dover trovare un punto di equilibrio. Da un lato, quanto più dati abbiamo in giro, minore è la probabilità che abbiamo effettivamente fatto il lavoro per comprenderli a fondo o che potessimo farlo con il tempo e gli strumenti a nostra disposizione. Se accumuliamo tutto indiscriminatamente, finiamo in una posizione in cui non riusciamo nemmeno a capire tutti i dati e siamo contemporaneamente al massimo rischio di violazione. Se non conserviamo nulla o non abbastanza, rendiamo impossibile accedere all’incredibile valore offerto dalla data science.

Quindi, dobbiamo capire dove si trova questo punto di equilibrio. Esistono delle best practice nell’ingegneria dei dati e nella conservazione dei dati, ma dobbiamo anche prendere molte decisioni improvvise. Avere principi su come pensiamo alla conservazione e all’uso dei dati è importante per aiutarci a guidarci in queste situazioni.

Considerazioni Istituzionali

Mentre sono su questo argomento della gestione dei dati, devo menzionare – di recente ho iniziato un nuovo ruolo! Sono il primo ingegnere senior di machine learning presso DataGrail, un’azienda che fornisce una suite di servizi B2B per aiutare le aziende a proteggere e gestire i dati dei propri clienti. Questo naturalmente mi ha fatto riflettere sulle domande relative alla conservazione dei dati e alla privacy, e mi ha fatto pensare alle esperienze che ho avuto nella mia carriera in aziende di diversi livelli di maturità e a come hanno gestito i dati.

È così facile per un’azienda diventare una “accanita accumulatrice” di dati. Si inizia con una carenza di dati e si procede alla cieca, raccogliendo dati sulle transazioni, le attività aziendali, ecc. man mano che si va avanti, per aiutare a prendere decisioni e sviluppare strategie. Magari ancora non si sta facendo machine learning, ma si può vedere il potenziale futuro e si vuole preparare il terreno. Sembra non solo ragionevole, ma vitale raccogliere i propri dati e conservarli! Così si installano sistemi di gestione dei dati e si comincia a riempire quelle tabelle o argomenti.

Tuttavia, questa situazione non è sostenibile a lungo termine. Dopo alcuni anni ci si ritrova con enormi volumi di dati. Forse è necessario passare a un fornitore di archiviazione cloud come Snowflake o AWS per tenerne il passo e rendere tutti questi dati accessibili nella velocità necessaria. Li si sta utilizzando, certo! Magari si è iniziato un programma di machine learning, o anche solo avanzata analisi e business intelligence, ma tutto questo sta facendo una grande differenza nell’efficacia della tua azienda se fatto correttamente. Ma anche così, si comincerà a doversi preoccupare dei costi dell’infrastruttura, senza contare probabilmente le nuove assunzioni di personale specializzato nella gestione dei dati.

Sfortunatamente, si è cominciato ad accumulare dati di cui ormai non si ha più un controllo adeguato. La documentazione potrebbe essere obsoleta, se mai sia esistita, e lo staff che ha contribuito a sviluppare i sistemi originali anni fa potrebbe essere cambiato. Cosa significa questa tabella? Qual è la provenienza di quella colonna? I dati che non sono interpretabili generano poco o nessun valore, perché non si può imparare efficacemente da dati che non si comprendono.

A questo punto si devono prendere decisioni. Come si pianifica strategicamente il futuro dei sistemi di dati? Probabilmente bisogna occuparsi dell’architettura dei dati per cercare di evitare che i costi aumentino rapidamente, ma cosa fare con la conservazione dei dati? Si conserva tutto per sempre? Se no, cosa tagliare e quando? Ricorda, però, che conservare un volume abbastanza grande di dati è un requisito non negoziabile se vuoi che la tua azienda possa avere funzioni di machine learning e/o analisi efficaci a supporto delle decisioni e dei prodotti. “Butta via tutto e evita tutte queste sciocchezze” non è un’opzione.

Allo stesso tempo, è necessario pensare ai quadri normativi e legali che si applicano a tutto questo mare di dati. Cosa si farà se un cliente chiede di cancellare tutti i dati che hai su di lui, come permettono alcune giurisdizioni? Molte organizzazioni non prendono questo seriamente fino a quando non è troppo tardi. Se vuoi essere in cima alle cose, e non hai iniziato dal primo giorno, hai la difficile sfida di adattare retroattivamente l’architettura dei dati alle richieste normative a cui questi dati sono soggetti.

Una parentesi sulla regolamentazione

L’incremento delle normative sulla sicurezza dei dati negli ultimi anni ha aumentato le sfide della situazione che ho descritto per le aziende. In qualche modo, siamo stati noi stessi a provocarlo: numerosi violazioni dei dati, scarsa sicurezza e politiche di consenso poco chiare di varie aziende negli ultimi anni hanno portato a una richiesta pubblica di una maggiore sicurezza, e il governo ha colmato il vuoto. Sembra che la fiducia nel marchio e la sicurezza non siano state motivazioni sufficienti per spingere molte aziende a migliorare la protezione dei dati. Se le leggi sono necessarie per garantire che i nostri dati personali e i nostri record sensibili siano protetti con cura, allora io sono del tutto favorevole.

Tuttavia, nel mio ruolo di data scientist, devo riconoscere la tensione di cui ho parlato all’inizio di questo articolo. Voglio tutti i dati, e voglio poterli esplorare senza restrizioni, perché questo è il modo in cui svolgo il mio lavoro in modo efficace. Ma sono anche un cliente e un cittadino e voglio che I MIEI dati siano attentamente protetti. So che la promessa e il potere del machine learning dipendono dalla disponibilità dei dati, ma naturalmente questo concetto diventa un po’ meno chiaro quando si considera che si tratta di dati su di te e sulle tue abitudini che alimentano i progressi. Trovo più facile accettare questo ruolo piuttosto che quello della “sicurezza” in sé, perché non sono un professionista della sicurezza dei dati di formazione, ma non ho bisogno di esserlo per avere un’idea precisa di quali sarebbero le mie preferenze come consumatore.

Il mio consiglio è di tenere a portata di mano sia il nostro cappello da consumatore/sicurezza sia il nostro cappello di scienziato dei dati. Dobbiamo mantenere un equilibrio tra l’accumulo di dati per il machine learning e la limitazione della conservazione dei dati per la privacy dei clienti e la sicurezza dei dati. Non c’è una risposta unica alla domanda “quanto dovremmo conservare?”, quindi l’unica scelta è bilanciare entrambi gli interessi in ogni decisione che prendiamo riguardo alla conservazione dei dati.

Prenderò una breve pausa dalla mia colonna per le vacanze e tornerò a metà gennaio con il mio prossimo articolo.

Per vedere altri miei lavori visita www.stephaniekirmer.com.