Accesso ai tuoi dati personali

Accesso dati personali

I Dati Estesi e Spesso Sorprendenti che le Aziende Hanno su di Te, Pronti e in Attesa di Essere Analizzati

Immagine creata con l'assistenza di DALL-E 2

Le leggi sulla privacy dei dati stanno emergendo in paesi di tutto il mondo e stanno creando un’opportunità unica per imparare come gli altri ti vedono mentre acquisisci anche una comprensione di te stesso. La maggior parte delle leggi è simile al Regolamento generale sulla protezione dei dati dell’Unione europea, comunemente noto come “GDPR”. Include disposizioni che richiedono alle organizzazioni di dirti il tipo di dati personali che memorizzano su di te, perché li memorizzano, come li utilizzano e per quanto tempo li conservano.

Ma le leggi includono anche un requisito spesso trascurato comunemente noto come portabilità dei dati. La portabilità dei dati richiede alle organizzazioni di fornirti una copia leggibile da una macchina dei dati che attualmente stanno memorizzando su di te su richiesta. Nel GDPR, questo diritto è definito nell’articolo 15, “Diritto di accesso del soggetto dei dati”. I dati che le organizzazioni hanno spesso includono un insieme ricco e variegato di funzionalità ed è pulito, rendendoli adatti a diverse analisi dei dati, modellizzazione e visualizzazione.

In questo articolo, condivido il mio percorso di richiesta dei miei dati da alcune delle aziende con cui interagisco abitualmente. Includo consigli per richiedere i tuoi dati così come idee per utilizzare i tuoi dati nella scienza dei dati e per ottenere informazioni personali.

Pensi di avere una solida conoscenza dei tuoi gusti musicali? Pensavo di avere gusti musicali ampi e variegati. Secondo Apple, però, sono più un rocker sfegatato.

Tabella dell'autore

Vuoi perfezionare le tue abilità di mappatura dei dati geografici? Queste fonti di dati forniscono una quantità spettacolare di dati geocodificati con cui lavorare.

Tracciato di una passeggiata attraverso Universal Studios — Immagine dell'autore

Desideri mettere alla prova le tue abilità di modellizzazione delle serie temporali? Diversi set di dati includono osservazioni dettagliate delle serie temporali.

Previsione del tempo di allenamento utilizzando i dati sanitari di Apple — Grafico dell'autore

La migliore notizia di tutte? Questi sono i tuoi dati. Non sono necessarie licenze o autorizzazioni.

Allaccia le cinture — la varietà di dati che riceverai è ampia. I tipi di analisi e modellizzazione che puoi fare non sono banali. E le informazioni che ottieni su te stesso e su come gli altri ti vedono sono affascinanti.

Per mantenere il focus sulle informazioni dai dati e per motivi di brevità, in questo articolo non includo codice. A tutti piace il codice, però, quindi ecco un link a un repository con diversi notebook che ho usato per analizzare i miei dati.

Ottenere i Dati

Se fai una lista delle organizzazioni che hanno dati su di te, ti renderai rapidamente conto che la lista è lunga. Le aziende di social media, i rivenditori online, gli operatori telefonici cellulari, i provider di servizi internet, i servizi di automazione domestica e sicurezza e i fornitori di intrattenimento in streaming sono solo alcune delle categorie di organizzazioni che memorizzano dati su di te. Richiedere i tuoi dati a tutti questi gruppi può richiedere molto tempo.

Per rendere la mia analisi gestibile, ho limitato le mie richieste di dati a Facebook, Google, Microsoft, Apple, Amazon e al mio operatore cellulare, Verizon. Ecco una tabella che riassume la mia esperienza con il processo di richiesta e risposta dei dati:

Tabella dell'autore

Ecco i link che ho utilizzato per richiedere i miei dati insieme alle informazioni sulla documentazione dei dati fornita dai fornitori:

Utilizzo un Apple Watch per monitorare i dati sulla salute e il fitness. Questi dati vengono accessibili separatamente da tutti gli altri dati Apple che richiedi dal sito web generale di Apple. A causa di ciò, mostro due voci separate di Apple nelle tabelle sopra e discuto i dati Apple in due argomenti di seguito.

La quantità e il tipo di dati che ricevi dipenderanno dall’estensione con cui interagisci con una particolare azienda. Ad esempio, utilizzo i social media raramente. Quindi, non è sorprendente che abbia ricevuto una quantità piuttosto modesta di dati da Facebook. Al contrario, utilizzo molto i prodotti e i servizi Apple. Ho ricevuto una vasta gamma e un grande volume di dati da Apple.

Tieni presente che se hai più identità con un’azienda, dovrai richiedere i dati per ogni identità. Ad esempio, se Google ti conosce con un indirizzo e-mail per il tuo account Google Play e un diverso indirizzo e-mail per il tuo account gmail, dovrai effettuare una richiesta di dati per ciascun indirizzo al fine di ottenere una visione completa dei dati che Google memorizza su di te.

Nella tabella sopra mostro i link che ho utilizzato per richiedere i dati dalle mie aziende target. I link sono aggiornati fino alla pubblicazione di questo articolo, ma potrebbero cambiare nel tempo. In generale, puoi trovare istruzioni per richiedere i tuoi dati nei link “Privacy”, “Privacy Rights” o simili sulla pagina principale di un’azienda. Questi link appaiono spesso in fondo alla pagina principale.

Fondo dello schermo di microsoft.com — immagine dell'autore

Di solito devi leggere la documentazione che descrive i tuoi diritti sulla privacy e cercare il tema “Accesso ai tuoi dati”, “Esportazione dei tuoi dati”, “Portabilità dei dati” o simili per ottenere un link alla pagina effettiva per richiedere i tuoi dati.

Infine, il processo per richiedere i tuoi dati, la tempestività della risposta e la qualità della documentazione che ricevi per spiegare i dati variano notevolmente da un’azienda all’altra. Sii paziente e persevera. Sarai ricompensato con una ricchezza di dati e conoscenze in poco tempo.

Le mie informazioni sui dati

Ecco una panoramica dei file dei dati che ho ricevuto da ciascuna azienda insieme a alcune osservazioni dopo l’analisi dei file più interessanti. Segnalo anche alcune opportunità per svolgere un’analisi dei dati più approfondita e modellistica con i dati di queste aziende.

Facebook

Il mio download da Facebook includeva 51 file .json, escludendo i numerosi file .json che contengono conversazioni individuali dal mio account Facebook Messenger. Facebook fornisce una documentazione di alto livello per i suoi file sul sito di download.

Dati sulla mia attività di accesso a Facebook, dispositivi utilizzati per l’accesso, posizione geografica stimata dei miei accessi e dati simili di tipo amministrativo sulle attività del mio account appaiono in diversi file. Nulla in questi file è particolarmente interessante, anche se posso dire che i dati sulla posizione sembravano sorprendentemente accurati, considerando che spesso erano dedotti dal mio indirizzo IP al momento dell’attività registrata.

I dati veramente interessanti hanno iniziato a comparire in un file che tracciava la mia attività su app e siti web al di fuori di Facebook. Posso vedere come i dati in quel file, combinati con i dati che Facebook ha già dal mio profilo Facebook, disegnino un quadro demografico che mi ha portato a essere selezionato come bersaglio da parte di specifici inserzionisti di Facebook. Il file al di fuori di Facebook inizia a darti un’idea di come funziona il processo di profilazione e pubblicità su Facebook.

Diamo un’occhiata al file. Si chiama:

“/apps_and_websites_off_of_facebook/your_off-facebook_activity.json”

Contiene 1.860 record delle azioni che ho intrapreso su 441 diversi siti web al di fuori di Facebook negli ultimi due anni. Ecco un esempio modificato dei siti web e dei tipi di azione registrati:

Tabella dell'autore

Risaltano alcuni siti tecnologici e di viaggio nella mia lista di attività al di fuori di Facebook. Ora diamo un’occhiata al mio profilo demografico.

Il file chiamato:

“ads_information/other_categories_used_to_reach_you.json”

contiene un elenco di categorie demografiche che Facebook mi ha assegnato in base, presumo, ai dati del mio profilo Facebook, ai miei amici su Facebook, all’attività su Facebook e alla mia attività su app e siti web al di fuori di Facebook. Ecco un esempio modificato delle categorie demografiche:

Tabella dell'autore

La maggior parte delle categorie sopra elencate si basa sul mio profilo, sul mio pattern di utilizzo del dispositivo e sui miei amici. Le categorie “Viaggiatori frequenti” e “Viaggiatori internazionali frequenti” provengono, presumo, dalle mie attività web al di fuori di Facebook. Finora, tutto corrisponde.

Infine, c’è un file chiamato:

“informazioni_pubblicitarie/annunciatori_che_utilizzano_la_tua_attività_o_le_tue_informazioni.json”

Il titolo del file “annunciatori_che_utilizzano_la_tua_attività_o_le_tue_informazioni” mi fa pensare che Facebook metta a disposizione dei suoi inserzionisti i miei dati, che a loro volta li utilizzano per indirizzarmi pubblicità su Facebook. Questo file, quindi, elenca gli inserzionisti che mi hanno mostrato un annuncio, o che almeno hanno considerato di farlo in base ai miei dati.

Il file conteneva 1.366 inserzionisti diversi. Ecco un piccolo campione di quegli inserzionisti:

Tabella dell’autore

Siti di viaggio, rivenditori, aziende tecnologiche, centri fitness, aziende di riparazione auto, assicuratori sanitari, aziende media (che rappresentano gli inserzionisti) e altre aziende compaiono nella lista. Si tratta di una vasta gamma di organizzazioni, ma in molti casi posso capire come sono correlate a me, alle mie preferenze e alle mie abitudini.

Gli altri file nel download di Facebook includono la cronologia delle ricerche su Facebook, i timestamp delle ricerche e i dati dei cookie del browser.

Google

La funzione di esportazione di Google si chiama “Takeout”. La pagina web di Takeout elenca tutti i vari servizi di Google per i quali è possibile richiedere i propri dati (gmail, YouTube, ricerca, Nest, ecc.). Mostra anche i file disponibili per ogni servizio e il formato di esportazione per ogni file (json, HTML o csv). Nella maggior parte dei casi, Google non offre la possibilità di scegliere il formato di esportazione per singoli file.

Una parte del sito di richiesta di Google Takeout su takeout.google.com — Immagine dello schermo dell'autore

Google fa un buon lavoro nel fornire una panoramica generale dello scopo di ogni file. Tuttavia, non esiste una documentazione per i singoli campi.

Ho ricevuto 94 file nella mia estrazione. Come per Facebook, c’erano i normali file amministrativi relativi alle informazioni sul dispositivo, agli attributi dell’account, alle preferenze e alla cronologia di accesso/login.

Un file interessante è quello intitolato ‘…/Pubblicità/LaMiaAttività.json’. Contiene la cronologia degli annunci presentati a me a seguito delle ricerche.

Alcune voci nel file Pubblicità/LaMiaAttività hanno URL che contengono un dominio clickserve, ad esempio:

Schermata acquisita dall'autore

Secondo il sito web di Google 360 ads, si tratta di annunci di una campagna pubblicitaria realizzata da uno degli inserzionisti di Google, serviti a me a seguito di qualche attività di clic che ho fatto. Il file non fornisce alcuna informazione su quale azione ho intrapreso che ha causato la visualizzazione dell’annuncio.

La colonna ‘titolo’ nel file distingue tra siti “Visitati” e argomenti “Cercati”. I record “Visitati” hanno tutti “Da Google Ads” nella colonna ‘dettagli’ (vedi esempio sopra), il che mi fa pensare che Google mi abbia mostrato un annuncio in risposta alla mia visita a un determinato sito.

I record “Cercati” mostrano siti che ho visitato direttamente (macys.com, yelp.com, ecc.). La colonna ‘dettagli’ mostra quei siti mentre la colonna ‘titolo’ mostra apparentemente cosa ho cercato su quei siti separati. Ad esempio,

Schermata acquisita dall'autore
Schermata acquisita dall'autore

Un altro file interessante che ho trovato si chiama ‘…/La mia attività/Scopri/LaMiaAttività.json’. È una cronologia delle suggerimenti di argomenti che Google mi ha presentato attraverso la sua funzione “Scopri” sull’app Google (in precedenza la funzione Google Feed – maggiori informazioni su Scopri qui). Gli argomenti di Scopri vengono selezionati in base alla tua attività sul web e sulle app, a condizione che tu dia a Google il permesso di utilizzare la tua attività per guidare gli argomenti di Scopri.

Anche se non permetto a Scopri di utilizzare la mia attività sul web e sulle app, Scopri mi ha comunque presentato alcuni suggerimenti di argomenti rilevanti per me. Ecco un esempio modificato degli argomenti presentati più frequentemente nel corso di diversi giorni:

Vediamo qui i temi ricorrenti della tecnologia e dei viaggi, insieme a un nuovo tema che vedremo anche nei file di Apple: la musica!

Google include nel download diversi file che tracciano la cronologia dell’attività su prodotti e servizi di Google. Ad esempio, ho ricevuto la cronologia delle mie visite ai siti developers.google.com e cloud.google.com per risorse di formazione e documentazione. Da questi dati non sono emerse informazioni convincenti, ma mi hanno ricordato gli argomenti che volevo rivedere e approfondire.

Altri dati storici nell’estratto includono ricerche e azioni effettuate all’interno del mio account Gmail; richieste di ricerca di immagini; luoghi cercati, indicazioni richieste e mappe visualizzate tramite l’app Google Maps; ricerche effettuate per video sul web (al di fuori di YouTube); ricerche effettuate e cronologia di visualizzazione su YouTube; e contatti che conservo con Google, presumibilmente in Gmail.

A differenza di Facebook, Google non fornisce alcuna informazione su un profilo demografico che Google ha creato per me.

Nota che puoi visualizzare i dati dell’attività su Google su tutti i suoi prodotti e app visitando myactivity.google.com:

Screen clip by the author

Anche se non puoi esportare i dati da questo sito, puoi esaminare i dati, permettendoti di avere un’idea del tipo di dati che potresti voler esportare tramite il sito Google Takeout.

Microsoft

Microsoft ti consente di esportare alcuni dei tuoi dati tramite il Pannello privacy di Microsoft. Per i singoli servizi Microsoft non disponibili nel Pannello (ad esempio, MSDN, OneDrive, Microsoft 365 o dati di Skype), puoi utilizzare i link nella sezione “Come accedere e controllare i tuoi dati personali” della pagina dell’informativa sulla privacy di Microsoft. La stessa pagina ti indirizza a un modulo web che puoi compilare se stai cercando dati non disponibili con nessuno dei metodi sopra indicati.

Ho scelto di esportare tutti i dati disponibili tramite il Pannello privacy. Ciò include la cronologia di navigazione, la cronologia delle ricerche, l’attività di localizzazione, la musica, la cronologia di TV e film e i dati di utilizzo di app e servizi. Ho chiesto anche un’esportazione dei miei dati di Skype. La mia esportazione includeva quattro file csv, sei file json e sei file jpeg.

Nell’esportazione non è stata inclusa alcuna documentazione dei file e non è stata trovata sul sito di Microsoft. Tuttavia, i nomi dei campi nei file sono abbastanza intuitivi.

Alcune osservazioni interessanti dai file di Microsoft:

Il file ‘…\Microsoft\SearchRequestsAndQuery.csv’ contiene dati delle ricerche che ho effettuato negli ultimi 18 mesi, inclusi i termini di ricerca e, apparentemente, il sito su cui ho fatto clic, se presente, nei risultati di ricerca. Sembra che i dati riguardino solo le ricerche che ho effettuato tramite Bing o Windows Search.

In base ai dati, sembra che abbia fatto clic su un link nei risultati di ricerca solo il 40% delle volte (347 su 870 ricerche effettuate). Da ciò deduco che le ricerche su cui non ho fatto clic su un link erano o mal formulate, restituendo risultati non pertinenti, o sono riuscito a ottenere la risposta desiderata semplicemente leggendo le anteprime dei link nei risultati di ricerca. Non ricordo di dover ripetere frequentemente i termini di ricerca e so che spesso trovo la risposta di cui ho bisogno direttamente in un’anteprima del link, dato che molte delle mie ricerche riguardano promemoria sulla sintassi di programmazione. In ogni caso, sono rimasto un po’ sorpreso dal tasso di clic del 40%. Mi sarei aspettato che fosse molto più alto.

Nel dati di Skype non c’è molto di interessante. Conteneva la cronologia dei thread dei messaggi in-app tra me e altri partecipanti alle riunioni di Skype. Erano inclusi anche file .jpeg con immagini dei partecipanti di alcune delle mie chiamate.

Apple Fitness

Ho dovuto accedere separatamente ai miei dati di salute e fitness Apple rispetto agli altri dati che ho esportato da Apple. I dati di salute e fitness vengono accessibili dall’app Salute sull’iPhone. Basta fare clic sull’icona in alto a destra dello schermo dell’app Salute. Ti porta a una schermata del profilo e quindi fai clic sul link Esporta tutti i dati di salute in fondo allo schermo:

Screen capture by author

La mia esportazione di salute includeva poco meno di 500 file .gpx per un totale di 102 MB. Contengono informazioni sul percorso dei miei allenamenti registrati negli ultimi anni. Altri 48 file contenevano 5,3 MB di dati elettrocardiografici provenienti da auto-test che ho eseguito sul mio Apple Watch.

Il file chiamato “…/Apple/apple_health_export/export.xml” contiene i dati veramente interessanti. Per me, è di 770 MB con 1.956.838 record che coprono diverse misurazioni di salute e esercizio fisico per circa sette anni. Alcuni dei tipi di attività misurati sono i seguenti:

Table by author

Si noti che la frequenza con cui Apple registra i dati varia per tipo di attività. Ad esempio, il consumo energetico attivo viene registrato ogni ora, mentre la velocità di salita delle scale viene registrata solo quando si sale le scale, causando una grande differenza nel conteggio delle osservazioni tra questi due tipi di attività.

I dati registrati per ogni osservazione includono la data/ora in cui è stata registrata l’osservazione, le date/orari di inizio e fine dell’attività misurata e il dispositivo che ha registrato l’attività (iPhone o Apple Watch).

Nel suo eccellente articolo “Analyse Your Health with Python and Apple Health” su VoAGI, Alejandro Rodríguez fornisce il codice che ho utilizzato per analizzare l’XML nel file export.xml e creare un dataframe di Pandas. (Grazie Alejandro!) Dopo aver selezionato un sottoinsieme di dati di un anno e averli raggruppati e aggregati a livello giornaliero e per tipo di attività, ho scoperto alcune cose interessanti.

Come sospettavo, i miei livelli di attività medi erano diversi nei giorni in cui ero in viaggio rispetto ai giorni in cui ero in una delle città che chiamo casa (Austin o Chicago). Per vedere ciò, ho dovuto utilizzare i dati di latitudine e longitudine dei file di percorso di esercizio .gpx menzionati in precedenza. Ciò mi ha permesso di determinare quali dei percorsi erano in una città di casa e quali si sono verificati durante i viaggi. Ho quindi unito quei dati di posizione ai miei dati di riepilogo dell’attività. Questo è stato ulteriormente riassunto per tipo di attività e posizione (città di casa o in viaggio). Ecco il pattern che si è unito:

Image by author

Mentre sono a Chicago, mi trovo in un palazzo con un ascensore, quindi la grande diminuzione delle medie di piani scalati non è stata una sorpresa. Quello che è stato sorprendente è stato l’aumento dei livelli di attività per Chicago rispetto ad Austin. La mia routine di esercizio è molto simile in entrambe le località, ma faccio più attività a Chicago. Penso che possa attribuirlo al fatto che a Chicago cammino di più verso le varie destinazioni, anziché guidare la maggior parte del tempo. Chiaramente, devo aumentare la quantità di esercizio fisico ad Austin.

Individuare tendenze come quella sopra, che non si possono vedere nei grafici standard dell’app Salute di Apple, è un ottimo utilizzo dei dati di salute.

I dati sono anche ottimi per la modellazione, dato che sono molto completi e generalmente puliti. Qui, ad esempio, c’è una previsione della serie temporale dei miei minuti di esercizio basata su un periodo di un anno utilizzando il modello Prophet di Facebook:

Forecast of exercise minutes using default weekly seasonality, no annual seasonality — Image by author

Ecco la stessa previsione, ma con la stagionalità annuale abilitata e la stagionalità settimanale aggiunta manualmente in base alla mia posizione (Austin, Chicago o in viaggio):

Previsione dei minuti di esercizio utilizzando la stagionalità annuale e la stagionalità settimanale manuale - Immagine dell'autore

Il modello di stagionalità settimanale predefinito sopra (primo grafico) fa un lavoro peggiore nel ricalcare i dati di allenamento rispetto al modello con termini di stagionalità personalizzati aggiunti (secondo grafico). Tuttavia, il modello di stagionalità predefinito è molto migliore (sebbene ancora non ottimo) nella previsione dei valori futuri dei minuti di esercizio. Non è necessario dire che l’ottimizzazione degli iperparametri aiuterebbe a migliorare questi risultati.

Errore percentuale medio assoluto di diversi modelli - grafico dell'autore

Questo è solo un esempio del tipo di modellazione con cui puoi sperimentare utilizzando i tuoi dati sanitari. Vuoi provare a utilizzare dati di serie temporali molto dettagliati? Dai un’occhiata ai file delle rotte di allenamento. Contengono osservazioni per ogni secondo dei tuoi allenamenti registrati con campi di latitudine, longitudine, altitudine e velocità.

Apple – Non Fitness/Salute

Richiedi il download di tutti i tuoi dati non relativi al fitness/salute dal sito web principale di Apple. Per me, si trattava di 84 file, principalmente file .csv e .json insieme a qualche file .xml. Ho ricevuto anche centinaia di file .vcf, uno per ogni contatto che ho sui miei dispositivi Apple. In totale, ho scaricato 68 MB di dati, escludendo i file .vcf.

Apple si distingue nel fornire una documentazione completa per ciascuno dei file di dati. Include spiegazioni per ciascun campo, anche se alcune definizioni sono più utili di altre. La documentazione mi ha aiutato a interpretare alcuni file di dati che sembravano interessanti.

Come per la maggior parte delle altre esportazioni, i file di Apple includono i normali dati amministrativi, inclusi ad esempio le mie preferenze per varie app, le informazioni di accesso e le informazioni sul dispositivo. Non ho trovato nulla di particolare in quei file.

Ci sono diversi file relativi ad Apple Music, uno dei servizi a cui sono abbonato. File con titoli come:

  • “…/Media_Services/Apple Music – Play History Daily Tracks.csv”;
  • “…/Media_Services/Apple Music – Recently Played Tracks.csv”; e,
  • “…/Media_Services/Apple Music Play Activity.csv”

contengono informazioni come:

  • data e ora in cui è stata riprodotta una canzone;
  • durata della riproduzione in millisecondi;
  • come è terminata ogni riproduzione (ad esempio, ha raggiunto la fine della traccia o ho saltato la canzone);
  • il numero di volte in cui la canzone è stata riprodotta;
  • il numero di volte in cui la canzone è stata saltata;
  • il titolo della canzone;
  • il titolo dell’album, se presente;
  • il genere della canzone; e,
  • da dove è stata riprodotta la canzone: dalla mia libreria, da una playlist o da uno dei canali radio di Apple.

I miei file contenevano tra 13.900 e 20.700 record a seconda dello scopo del file. I dati coprivano quasi sette anni di riproduzioni di canzoni.

Apple raccoglie una varietà di dati su come terminano le riproduzioni delle canzoni, probabilmente per scopi di raccomandazione di altre canzoni. Le ragioni di terminazione della riproduzione delle canzoni includono:

Tabella dell'autore

Per gli scopi delle analisi che mostro di seguito, mi sono focalizzato sulle ragioni di fine ‘NATURAL_END_OF_TRACK’, ‘TRACK_SKIPPED_FORWARDS’ e ‘MANUALLY_SELECTED_PLAYBACK_OF_A_DIFF_ITEM’.

A volte ripeto una canzone che mi piace. Una domanda che mi sono posto era “Riproduco in modo ossessivo le canzoni preferite, ripetutamente?”. Ho risposto a quella domanda utilizzando i dati di Apple:

Tabella dell'autore

La tabella qui sopra riassume il numero di volte che ho suonato alcune canzoni preferite (‘Play Count’) e il numero di giorni in cui ho suonato le canzoni (‘Giorni in cui ho suonato’). Sembra che in generale suoni una canzone solo una volta al giorno. Inoltre, dato che il conteggio delle riproduzioni è inferiore al conteggio dei giorni per alcune canzoni, devo saltare alcuni preferiti se li ho sentiti troppe volte di recente o se la canzone non si adatta al mio umore del momento. Quindi, niente riproduzioni ossessive qui!

Mi chiedevo anche se preferisco certi tipi di canzoni in diversi giorni della settimana, in diversi momenti della giornata o persino in diversi mesi dell’anno. La mia intuizione dice di sì. Con i dati di Apple, è stato facile visualizzare i generi che ho suonato in diversi momenti. Qui, ad esempio, ci sono i generi che ho suonato più frequentemente durante ogni mese dell’anno:

Immagine dell'autore

È evidente che preferisco le canzoni rock, con l’aggiunta di musica alternativa e pop per una varietà occasionale. Luglio e agosto sembrano essere i mesi in cui preferisco la varietà.

Detto questo, sono rimasto sorpreso da quanto rock sembri suonare. Ammetto che lo adoro. Ma credo anche di avere un gusto musicale piuttosto ampio.

Quindi, ho messo in dubbio l’accuratezza del genere assegnato alle canzoni nei dati di Apple. Per una cosa, 10.083 delle 22.313 riproduzioni di brani nel mio file non avevano un genere assegnato. Inoltre, sembra esserci molta sovrapposizione nei generi assegnati. Ad esempio, “R&B/Soul”, “Soul and R&B”, “Soul” e “R&B / Soul” sono tutti generi assegnati a diverse canzoni nei miei dati. I totali nel grafico sopra sarebbero certamente diversi se riassegnassi i generi di tutte le canzoni utilizzando uno schema di denominazione dei generi coerente.

Piuttosto che investire il tempo per aggiornare i generi, ho deciso di fare un altro test per determinare se le tendenze nel grafico rappresentano veramente i miei modelli di riproduzione. Dal momento che Apple include le ragioni per la fine della riproduzione delle canzoni nei dati, ho cercato di vedere se tendo a saltare più spesso le canzoni rock rispetto ad altri generi, indicando che cerco di suonare altri generi quando vengono riprodotte troppe canzoni rock.

Grafico dell'autore

Come si è scoperto, non salto significativamente più spesso le canzoni rock rispetto ad altri generi che ascolto frequentemente. Dovrò affrontarlo – sono un fan sfegatato del rock.

Un altro file interessante si chiama “…/Media_Services/Stores Activity/Other Activity/App Store Click Activity.csv”. Anche se non lo analizzo qui, lo consiglio a chiunque voglia farsi un’idea del tipo di dati che un rivenditore potrebbe voler monitorare per l’attività sul proprio sito web. Per me, includeva oltre 4.900 record con la cronologia dettagliata della mia attività nell’app store e, apparentemente, in Apple music. Tra gli elementi inclusi nel file ci sono i tipi di azioni che ho intrapreso, le date/orari, il flag del test A/B, i termini di ricerca e i dati presentati a me (“impressed” è il termine utilizzato).

Un ultimo file potenzialmente interessante per l’analisi si chiama \\Media_Services\\Stores Activity\\Other Activity\\Apple Music Click Activity V3.csv. Include la città e la longitudine/latitudine dell’indirizzo IP in cui, presumo, stavo usando Apple Music. Per me, il file aveva 10.000 record.

Verizon

Dopo una lunga attesa di oltre 80 giorni, Verizon mi ha notificato che potevo scaricare i miei dati. Includeva 17 file csv per un totale di 1,4 megabyte di dati. La maggior parte dei file riguardava informazioni amministrative dell’account (descrizioni delle linee cellulari, informazioni sui dispositivi, cronologia delle fatture, cronologia degli ordini, ecc.), la cronologia delle notifiche inviate da Verizon a me e la mia cronologia di messaggistica recente (ma senza il contenuto dei messaggi). Anche se sono stati forniti file di cronologia delle chiamate e di utilizzo dei dati, erano vuoti tranne per una nota che indicava che i dati erano “Mascherati per motivi di sicurezza”.

Verizon ha fornito due file di documentazione. Uno conteneva i nomi e le descrizioni generali di 34 possibili file che potevano essere inclusi in un download. I file inclusi dipendono dai servizi Verizon che si utilizzano. Il secondo file di documentazione conteneva una descrizione di 3.091 campi dati che potevano apparire nei file. Sebbene le descrizioni dei campi dati siano utili, mancano alcuni dettagli. Ad esempio, molti campi sono descritti come contenenti codici per vari scopi, tuttavia i codici stessi e i loro significati non sono descritti.

Un file che è stato estremamente interessante si chiama “…/Verizon/General Inferences.csv”. Contiene una quantità spettacolare di informazioni demografiche su di me e su altre persone nella mia famiglia. Ecco come la documentazione di Verizon descrive il file:

“Il file General Inferences fornisce informazioni su assunzioni e inferenze generali per fornire contenuti più relazionabili e pertinenti attraverso le nostre piattaforme. Ciò può includere informazioni come Attributi, Preferenze o Opinioni.”

In base alla natura delle caratteristiche demografiche, presumo che la maggior parte di esse sia stata acquisita da Verizon da aggregatori di dati esterni e non raccolta direttamente da me da Verizon. Il numero e la portata delle caratteristiche demografiche superano di gran lunga qualsiasi informazione che ho mai fornito direttamente a Verizon.

In effetti, la documentazione di Verizon parla di un altro file chiamato “General” information file (non incluso nel mio download). La documentazione dice che il file “General” include dati provenienti da fonti di informazioni esterne. La mia ipotesi è che le informazioni nel file “General Inferences” provengano anche da tali fonti esterne. Alcuni dei dati finanziari nel file “General Inferences” potrebbero provenire dalla relazione di credito che Verizon richiede ai suoi clienti di fornire.

Un totale di 332 caratteristiche demografiche sono state incluse nei miei dati General Inferences. Ecco un elenco abbreviato che include alcune delle caratteristiche più sorprendenti:

Elenco abbreviato delle caratteristiche demografiche dal file General Inferences - Tabella dell'autore

Tutte le caratteristiche di General Inferences vengono apparentemente utilizzate da Verizon per fare marketing nei miei confronti e per farmi rimanere cliente. Come puoi vedere nell’elenco sopra, sono inclusi anche dettagli sul mio coniuge e sui nostri figli. Puoi vedere l’elenco completo delle 332 caratteristiche qui.

Alcune delle caratteristiche che ho trovato veramente insolite includono:

Tabella dell'autore

Si potrebbe chiedersi se quel tipo di elementi di dati sia davvero necessario per Verizon per aiutare a fornirmi un servizio e, in tal caso, come Verizon li utilizza.

Amazon

Amazon ha fornito 214 file contenenti 4,93 meg di dati. Alcuni dei file riguardano:

  • Preferenze dell’account;
  • Cronologia degli ordini;
  • Cronologia di evasione e resi;
  • Cronologia di visualizzazione e ascolto (Amazon Prime Video e Amazon Music);
  • Acquisti e attività di lettura Kindle,
  • e cronologia di ricerca che include termini di ricerca.

Se fossi un cliente Alexa o un cliente Ring, presumo che avrei ricevuto dati sulla mia attività su quei servizi.

Sei file .txt contenevano descrizioni di alto livello di alcuni dei file di dati scaricati. Diversi file .pdf contengono documentazione per campi nei file scaricati (ad esempio il file “Digital.PrimeVideo.Viewinghistory.Description.pdf”).

I file più interessanti di Amazon riguardano gli audience di marketing associati a me da Amazon, dai suoi inserzionisti o da “terze parti”. Presumo che le terze parti siano fornitori di dati da cui Amazon acquista dati.

Il file “…/Amazon/Advertising.1/Advertising.AmazonAudiences.csv” contiene gli audience assegnati direttamente da Amazon. Ecco un esempio dei 21 audience:

Audience assegnati a me da Amazon - Tabella dell'autore

Gli assegnamenti di audience di Amazon sono in gran parte accurati se considero i prodotti che ho acquistato o cercato, sia per me stesso che per conto di altre persone.

Il file “…/Amazon/Advertising.1/Advertising.AdvertiserAudiences.csv” contiene apparentemente un elenco di inserzionisti di Amazon che hanno portato i propri audience su Amazon e le cui liste di audience includono me. Il file contiene 50 inserzionisti. Ecco un esempio:

Inserzionisti Amazon che mi hanno nella loro lista di audience - Tabella dell'autore

Faccio affari con o possiedo prodotti di alcuni degli inserzionisti nell’elenco (ad esempio, Delta, Intuit, Zipcar), quindi capisco come sono finito nelle loro liste di pubblico. Non ho alcuna connessione con gli altri nell’elenco (ad esempio, AT&T, Red Bull, Royal Bank of Canada), quindi non sono sicuro di come sia finito nelle loro liste di pubblico.

Secondo Amazon, il file

“…/Amazon/Advertising.1/Advertising.3PAudiences.csv”

contiene una lista di

“Pubblico a cui sei incluso da terze parti”.

La sua accuratezza è scarsa. Sono elencati un totale di 33 pubblici, di cui 28 incentrati sulla proprietà di automobili. I restanti quattro riguardano il genere, il livello di istruzione, lo stato civile e i familiari a carico. Un esempio dei pubblici legati all’automobile:

Esempio di assegnazioni di pubblico legate all'automobile da fornitori di terze parti - Tabella dell'autore

Mentre le assegnazioni di tipo genere/livello di istruzione/stato civile nel file sono accurate, solo alcune delle assegnazioni legate all’automobile sono corrette. La maggior parte non lo è. E, non sono così interessato alle automobili da giustificare 28 su 33 assegnazioni di profilo. Per fortuna, Amazon sembra ignorare questi dati quando mi propone raccomandazioni di prodotti o video.

Pensieri finali

In questo articolo, ho sperato di mostrarti la vasta varietà di dati che puoi ottenere dalle aziende con cui fai affari. I dati ti permettono di capire cosa pensano di te queste aziende mentre impari anche alcune cose sorprendenti su te stesso!

Abbiamo visto che alcune aziende identificano correttamente i miei interessi per la tecnologia e i viaggi, mentre un’azienda mi vede erroneamente come un appassionato di automobili. In un momento sconvolgente e un po’ inquietante, ho scoperto che un’altra azienda ha informazioni demografiche dettagliate sulla mia famiglia.

Ho imparato che devo aumentare il mio regime di allenamento in uno dei due luoghi che chiamo casa, anche se pensavo che i miei allenamenti fossero equivalenti in entrambi i luoghi. Ho scoperto che alcune aziende (Facebook, Google) non hanno una visione chiara del mio profilo. Tuttavia, l’immagine demografica che Verizon ha di me è sorprendentemente accurata.

I dati che le varie aziende ti forniscono rappresentano una ricca fonte di materiale grezzo per sperimentare. Sono dati suscettibili di analisi approfondite, modellazione e attività di visualizzazione. Ad esempio, sono disponibili coordinate geografiche e timestamp per molte osservazioni, consentendoti di visualizzare o modellare i tuoi spostamenti.

Spero che tu possa trovare il tuo insieme di interessanti intuizioni scaricando i tuoi dati personali. Fammi sapere se hai esperienze degne di nota nel lavorare con aziende diverse da quelle che ho menzionato qui.

Sono i tuoi dati – Ora vai avanti!