Bailey Kacsmar, candidata al dottorato presso l’Università di Waterloo – Serie di interviste
Intervista a Bailey Kacsmar, candidata al dottorato presso l'Università di Waterloo.
Bailey Kacsmar è una candidata al dottorato presso la School of Computer Science dell’Università di Waterloo e un futuro membro del corpo docente presso l’Università di Alberta. I suoi interessi di ricerca riguardano lo sviluppo di tecnologie per la privacy consapevoli dell’utente, attraverso lo studio parallelo di approcci tecnici per il calcolo privato insieme alle percezioni, preoccupazioni e comprensione dell’utente relative a queste tecnologie. Il suo lavoro mira a identificare il potenziale e le limitazioni per la privacy nelle applicazioni di apprendimento automatico.
I tuoi interessi di ricerca riguardano lo sviluppo di tecnologie per la privacy consapevoli dell’utente, perché la privacy nell’IA è così importante?
La privacy nell’IA è così importante, principalmente perché l’IA nel nostro mondo non esiste senza dati. I dati, sebbene siano un’astrazione utile, descrivono fondamentalmente le persone e i loro comportamenti. Raramente stiamo lavorando con dati sulle popolazioni degli alberi e sui livelli dell’acqua; quindi, ogni volta che stiamo lavorando con qualcosa che può influenzare persone reali, dobbiamo essere consapevoli di questo e capire come il nostro sistema può fare del bene o del male. Questo è particolarmente vero per l’IA, dove molti sistemi beneficiano di enormi quantità di dati o sperano di utilizzare dati altamente sensibili (come i dati sanitari) per cercare di sviluppare nuove comprensioni del nostro mondo.
In che modo hai visto che l’apprendimento automatico ha tradito la privacy degli utenti?
- Inflection AI si assicura un finanziamento di $1,3 miliardi guidato da titan dell’industria tecnologica
- Come i Modelli di Lingua di Grandi Dimensioni (LLM) Alimenteranno le App del Futuro
- Josh Feast, CEO e Co-Fondatore di Cogito – Serie di interviste
Tradire è una parola forte. Tuttavia, ogni volta che un sistema utilizza informazioni su persone senza il loro consenso, senza informarle e senza considerare i possibili danni, corre il rischio di tradire le norme sulla privacy individuali o sociali. In sostanza, questo porta a una tradimento a causa di mille piccole ferite. Tali pratiche possono consistere nell’addestramento di un modello sulle caselle di posta elettronica degli utenti, sull’addestramento sui messaggi di testo degli utenti o sui dati sanitari; tutto ciò senza informare i soggetti dei dati.
Puoi definire cos’è la privacy differenziale e qual è la tua opinione al riguardo?
La privacy differenziale è una definizione o una tecnica che è emersa come un metodo per raggiungere la privacy tecnica. Le definizioni tecniche della privacy, in generale, includono due aspetti chiave; cosa viene protetto e da chi. All’interno della privacy tecnica, le garanzie di privacy sono protezioni che vengono raggiunte a condizione che una serie di ipotesi venga soddisfatta. Queste ipotesi possono riguardare i potenziali avversari, le complessità del sistema o le statistiche. È una tecnica estremamente utile che ha una vasta gamma di applicazioni. Tuttavia, è importante tenere presente che la privacy differenziale non è equivalente alla privacy.
La privacy non è limitata a una sola definizione o concetto, ed è importante essere consapevoli di nozioni al di là di ciò. Ad esempio, l’integrità contestuale è una nozione concettuale di privacy che tiene conto di cose come il modo in cui diverse applicazioni o diverse organizzazioni cambiano le percezioni sulla privacy di un individuo in relazione a una determinata situazione. Ci sono anche nozioni legali di privacy come quelle comprese nel PIPEDA del Canada, nel GDPR dell’Europa e nell’atto di protezione dei consumatori della California (CCPA). Tutto questo per dire che non possiamo trattare i sistemi tecnici come se esistessero in un vuoto privo di altri fattori di privacy, anche se viene impiegata la privacy differenziale.
Un altro tipo di apprendimento automatico che migliora la privacy è l’apprendimento federato, come definiresti ciò e qual è la tua opinione al riguardo?
L’apprendimento federato è un modo per eseguire l’apprendimento automatico quando il modello deve essere addestrato su una collezione di dataset distribuiti tra diversi proprietari o posizioni. Non è intrinsecamente un tipo di apprendimento automatico che migliora la privacy. Un tipo di apprendimento automatico che migliora la privacy deve definire formalmente cosa viene protetto, da chi viene protetto e le condizioni che devono essere soddisfatte affinché queste protezioni siano valide. Ad esempio, quando pensiamo a una semplice computazione con privacy differenziale, essa garantisce che chiunque visualizzi l’output non sarà in grado di determinare se un certo punto dati è stato contribuito o meno.
Inoltre, la privacy differenziale non fornisce questa garanzia se, ad esempio, c’è correlazione tra i punti dati. L’apprendimento federato non ha questa caratteristica; si limita ad addestrare un modello su una collezione di dati senza richiedere ai detentori di tali dati di fornire direttamente i loro dataset l’uno all’altro o a un terzo. Anche se sembra una caratteristica di privacy, ciò di cui abbiamo bisogno è una garanzia formale che non si possa apprendere le informazioni protette dati gli intermediari e gli output che le parti non affidabili osserveranno. Questa formalità è particolarmente importante nell’ambito federato in cui le parti non affidabili includono tutti coloro che forniscono dati per addestrare il modello collettivo.
Quali sono alcune delle attuali limitazioni di questi approcci?
Le limitazioni attuali potrebbero essere meglio descritte come la natura del compromesso tra privacy e utilità. Anche se si fanno tutte le altre cose, si comunicano le implicazioni sulla privacy a coloro che sono interessati, si valuta il sistema per ciò che si sta cercando di fare, ecc., tutto si riduce al fatto che raggiungere una privacy perfetta significa che non creiamo il sistema, raggiungere una utilità perfetta generalmente non avrà alcuna protezione della privacy, quindi la domanda è come determinare quale sia il compromesso “ideale”. Come troviamo il punto di equilibrio giusto e costruiamo verso di esso in modo tale da ottenere ancora la funzionalità desiderata fornendo le necessarie protezioni della privacy.
Attualmente stai cercando di sviluppare una tecnologia per la privacy consapevole dell’utente attraverso lo studio parallelo di soluzioni tecniche per il calcolo privato. Potresti entrare nel dettaglio su quali sono alcune di queste soluzioni?
Ciò che intendo con queste soluzioni è che possiamo, in parole povere, sviluppare un numero qualsiasi di sistemi tecnici per la privacy. Tuttavia, quando lo facciamo, è importante determinare se le garanzie di privacy stanno raggiungendo coloro che ne sono interessati. Ciò può significare sviluppare un sistema dopo aver scoperto quali tipi di protezioni la popolazione valuta. Ciò può significare aggiornare un sistema dopo aver scoperto come le persone usano effettivamente un sistema considerando le minacce e i rischi reali della vita reale. Una soluzione tecnica potrebbe essere un sistema corretto che soddisfa la definizione che ho menzionato in precedenza. Una soluzione consapevole dell’utente progetterebbe il suo sistema in base ai contributi degli utenti e degli altri interessati nel dominio di applicazione previsto.
Stai attualmente cercando studenti laureati interessati a iniziare a settembre 2024, perché pensi che gli studenti dovrebbero essere interessati alla privacy dell’IA?
Credo che gli studenti dovrebbero essere interessati perché è qualcosa che crescerà solo nella sua pervasività all’interno della nostra società. Per avere un’idea di quanto rapidamente si sviluppino questi sistemi, basta guardare all’amplificazione di Chat-GPT attraverso articoli di notizie, social media e dibattiti sulle sue implicazioni. Viviamo in una società in cui la raccolta e l’uso dei dati sono così radicati nella nostra vita quotidiana che forniamo quasi costantemente informazioni su noi stessi a varie aziende e organizzazioni. Queste aziende vogliono utilizzare i dati, in alcuni casi per migliorare i propri servizi, in altri per trarne profitto. A questo punto, sembra irrealistico pensare che queste pratiche di utilizzo dei dati aziendali cambieranno. Tuttavia, l’esistenza di sistemi per la protezione della privacy che proteggono gli utenti consentendo comunque determinate analisi desiderate dalle aziende può contribuire a bilanciare il compromesso tra rischi e ricompense che è diventato una parte implicita della nostra società.
Grazie per l’ottimo colloquio, i lettori interessati a saperne di più dovrebbero visitare la pagina Github di Bailey Kacsmar.