Come il Machine Learning rivoluzionerà l’industria dei dati di localizzazione
Il Machine Learning e l'industria dei dati di localizzazione
I dati di localizzazione possono fornire informazioni uniche ma comportano costi e problemi di privacy. L’apprendimento automatico può superare questi svantaggi e migliorare i prodotti basati sui dati di localizzazione.
Il settore dei dati di localizzazione è in rapida crescita ma è ancora in fase di sviluppo tecnico. La maggior parte dei prodotti basati sui dati di localizzazione sono tecnicamente relativamente semplici e possono essere considerati una forma di statistica descrittiva implementata (ad esempio, la quantità media di dispositivi visti all’interno di un negozio) o, nel peggiore dei casi, i dati di localizzazione grezzi stessi. L’apprendimento automatico può apportare molto valore a questo settore, riducendo i costi, aumentando la qualità del prodotto e migliorando la privacy.
Questo articolo mira a fornire una panoramica di alto livello e intuitiva su come l’apprendimento automatico può fornire prodotti di dati di localizzazione più robusti, riducendo i costi e migliorando la privacy.
Introduzione
Il settore dei dati di localizzazione e la privacy
Il settore dei dati di localizzazione è un’area di business in forte crescita che offre prodotti in grado di fornire informazioni uniche ai propri clienti. Prodotti specifici basati sui dati di localizzazione consentono alle aziende di analizzare, ad esempio, quante persone vanno in un negozio concorrente, da dove provengono i loro clienti, quante persone si sono spostate da un’area all’altra e molto altro ancora. Tuttavia, lavorare con i dati di localizzazione è tutto tranne che banale e presenta un problema enorme: la privacy!
Oltre ad altre questioni tecniche e legate ai dati che devono essere affrontate quando si lavora con i dati di localizzazione, la privacy individuale è la più importante e, a lungo termine, probabilmente la più sfidante per il settore. Non importa se i dati di localizzazione in questione sono dati GPS provenienti da telefoni cellulari, dati Telco o immagini satellitari. Dal momento che lo scopo stesso dei dati di localizzazione è rivelare una posizione, i prodotti semplici (dati grezzi o aggregati) non escludono la possibilità di reverse engineering e, quindi, di violare la privacy di qualcuno.
- Stai affrontando le metriche di conversione? Considera il modello Beta-Binomiale.
- Pandas per le serie temporali
- openCypher* contro qualsiasi Database Relazionale
Anche le trasformazioni dei dati “rispettose della privacy”, come l’hashing dell’identificatore univoco, l’oscuramento della latitudine e della longitudine e l’aggregazione dei dati, rendono difficile l’operazione di reverse engineering. Inoltre, anche se un’azienda terza sta aggregando quei dati di localizzazione in modo perfettamente rispettoso della privacy, i dati identificabili individualmente sono già stati inviati digitalmente a tale azienda e, con ciò, questi dati sensibili non sono più controllati dal proprietario dei dati di prima parte o dall’individuo stesso.
Pertanto, il futuro del settore dei dati di localizzazione risiede nella combinazione di due cose: l’aggregazione precoce dei dati dal lato dei dati di prima parte in un formato non identificabile e l’utilizzo dell’apprendimento automatico su queste aggregazioni per creare informazioni di mobilità umana di alta qualità.
Lo stato attuale dell’arte nel settore dei dati di localizzazione
La maggior parte dei prodotti basati sui dati di localizzazione fornisce informazioni sulla mobilità umana e si basa su metodi tecnici piuttosto semplici. Ad esempio, un flusso di lavoro comune per un prodotto che stima il flusso di persone in un negozio può apparire così:

I prodotti più sofisticati all’interno del settore aggiungono più contesto come luogo di residenza e di lavoro o demografia dell’area alla metrica. Tuttavia, il flusso di lavoro è sempre lo stesso: prima elaborare i dati grezzi, raggruppare i singoli punti dati in un evento di permanenza, correggere i problemi tecnici dei dati e aggregare tutti gli eventi di permanenza in un’area.
Questo approccio è semplice ma efficace. Consente di ottenere stime molto accurate del flusso di persone, soprattutto quando si è interessati ai modelli nel tempo. La sofisticazione tecnica, e principalmente la parte proprietaria, risiede nella correzione dell’offerta in quanto una semplice aggregazione sarebbe fortemente influenzata dai problemi sottostanti nell’offerta. Anche piccoli cambiamenti nel volume dell’offerta possono avere un impatto negativo enorme su un prodotto di dati aggregati senza una correzione adeguata. Pertanto, la correzione automatizzata dell’offerta è fondamentale per un prodotto di dati di qualità.

Tuttavia, anche se la correzione dell’offerta funziona, presenta comunque limitazioni significative. Alcune di queste sono:
- L’offerta cambia costantemente e richiede miglioramenti e nuove versioni del prodotto in modo continuo.
- L’acquisizione e la memorizzazione di tutti i dati a livello di dispositivo nel tempo comporta costi elevati.
- Un numero sempre maggiore di dati di posizione viene manipolato, “riprodotto” o addirittura falsificato, influenzando la qualità del prodotto.
- La reputazione pubblica per il lavoro con i dati è bassa e, per motivi di privacy, il volume dei dati disponibili sta diminuendo.
Pertanto, la configurazione generale dell’acquisto di dati di posizione nella loro forma grezza e la loro rivendita come qualche tipo di derivato non è un percorso praticabile per il futuro e diminuirà la robustezza e la qualità dei prodotti di dati di posizione esistenti.
L’aggregazione dei dati sul lato della prima parte risolve le limitazioni sopra descritte e rappresenta una soluzione vantaggiosa per tutti, ma: come possiamo costruire un prodotto basato su dati già aggregati? Come gestiamo la deduplicazione dei dati, l’assegnazione dei dati alle posizioni o la stima del flusso di persone verso un negozio? La risposta è l’apprendimento automatico!
Cos’è l’apprendimento automatico
Ci sono varie ottime introduzioni ai concetti di intelligenza artificiale e apprendimento automatico (come questa) e una semplice ricerca su internet (o chiedendo a un esperto) fornirà una migliore risposta rispetto a quanto possa fare questa spiegazione. Tuttavia, per rendere il concetto super intuitivo e semplice:
L’apprendimento automatico consente a un sistema artificiale di apprendere relazioni tra i dati senza interazione umana.
Un semplice esempio nella vita reale può essere il condizionamento classico, in cui un cane impara ad alzare la zampa quando riceve abbastanza spesso una ricompensa per farlo. Questa relazione tra “alzare la zampa” e “ricompensa” è, semplificando, ciò che le macchine imparano in un sistema artificiale (anche se un cane è molto più intelligente di qualsiasi sistema di intelligenza artificiale che gli umani abbiano costruito finora).
È importante notare che il numero di caratteristiche di input non è limitato a uno solo. Infatti, l’apprendimento automatico di solito utilizza molte caratteristiche per addestrare relazioni robuste. I vantaggi sono molteplici. Ad esempio, se pensiamo al nostro problema di dati aggregati provenienti da fornitori di dati di prima parte, l’apprendimento automatico ci consentirebbe di apprendere relazioni tra queste aggregazioni e un obiettivo specifico che vorremmo stimare (ad esempio, il flusso di persone verso un negozio).
Come usare l’apprendimento automatico con i dati di posizione
Stimare il flusso di persone verso un negozio
Per rendere le cose più intuitive, qui viene scelto uno studio di caso che utilizza dati GPS provenienti da dispositivi mobili. L’obiettivo è sviluppare un prodotto affidabile e qualitativo che informi i clienti su quante persone hanno visitato un negozio specifico su base giornaliera. Questa è una conoscenza molto utile per le aziende interessate alle prestazioni dei negozi dei propri concorrenti o alla selezione del sito.
Lo stato attuale della metodologia all’avanguardia
Al giorno d’oggi, le aziende che stimano il flusso di persone nei negozi basandosi sui dati GPS lo fanno direttamente basandosi sui dati GPS grezzi o aggregando tali dati grezzi e correggendo le fluttuazioni dell’offerta. Tuttavia, come si può vedere di seguito, questi due approcci funzionano solo dopo che sono stati osservati dati all’interno del negozio di interesse.

Quando il prodotto arriva con volumi di dati sufficientemente alti, entrambe le metodologie del prodotto (a livello di dispositivo e aggregazione) funzionano e le principali preoccupazioni riguardano la privacy dei dati, le fluttuazioni dell’offerta, il costo e la fiducia nell’offerta dei dati.
Tuttavia, quando il volume dei dati è basso o il negozio si trova in un’area con una quota di mercato generalmente bassa, la semplice aggregazione non consente di ottenere un prodotto poiché si otterrebbe sempre un conteggio “0”. Data la diminuzione generale dei dati di localizzazione disponibili, questo è già un problema per il settore.
Stima del flusso di persone utilizzando un modello di apprendimento automatico
Tenendo presente l’esempio condizionato di prima, un modello di apprendimento automatico semplicemente apprende le relazioni tra le condizioni. Simile al cane che impara che alzare una zampa porta a una ricompensa, un modello di apprendimento automatico può apprendere che se più persone sono vicine al luogo, è molto probabile che ci siano anche più persone all’interno del luogo.

In altre parole, lo scopo dell’apprendimento automatico è addestrare una relazione (o modello) che descriva come il flusso di persone all’interno di un negozio cambia in base alle fluttuazioni del traffico fuori dal negozio. Ad esempio, immaginiamo che in un determinato sabato ci sia un’inaugurazione che porta alla situazione in cui il numero di persone vicine al negozio sia il doppio rispetto a un sabato normale. In quel caso, è molto probabile che anche più persone si dirigano verso il negozio.
Ovviamente, la relazione tra il flusso di persone fuori dal negozio e quello all’interno non deve essere lineare. Ma quella non è l’unica relazione che un modello deve imparare. Pensateci, cosa altro influisce sul flusso di persone in un negozio che può essere misurato? Perché, fondamentalmente, ogni dato relativo al traffico del negozio migliora la qualità del modello. Alcuni set di dati che migliorano queste relazioni sono le precipitazioni, la popolazione dell’area, la demografia, il giorno della settimana, le festività e molti altri.
L’apprendimento automatico è in grado di utilizzare tutti questi diversi set di dati e combinarli in un singolo modello che descrive la relazione di come il flusso di persone all’interno di un negozio cambia in base ai dati che descrivono l’ambiente circostante.

Nulla è perfetto, quindi quali sono i pro e i contro?
Anche se l’apprendimento automatico offre molte opportunità, non è qualcosa che può risolvere tutto e presenta limitazioni che devono essere affrontate.
Precedenti storici. Le relazioni addestrate si basano di solito su qualche verità storica. Ciò significa che il prodotto finale è in larga misura influenzato dalle relazioni storiche. Tuttavia, se le relazioni cambiano, i modelli richiedono un nuovo addestramento per garantire che le previsioni siano aggiornate e non si discostino.
Alcune cose sono imprevedibili. Anche se gli attuali sviluppi dell’IA fanno sembrare l’apprendimento automatico la soluzione per quasi tutto, è importante tenere presente che molte cose sono imprevedibili. Non esiste un modello in grado di prevedere una pandemia e prevedere l’impatto della pandemia sui negozi. Inoltre, un modello può apprendere solo le relazioni esistenti all’interno dei dati. Eventi o comportamenti che non erano presenti nei dati di addestramento o che non hanno una relazione all’interno di tali dati sono imprevedibili.
Il cambiamento di mentalità. Anche se i prodotti risultanti possono sembrare gli stessi, provengono da una metodologia fondamentalmente diversa. Ciò porta a sfide sia per il lato commerciale che per l’utente del prodotto per garantire che i vantaggi e gli svantaggi siano affrontati correttamente.
Tuttavia, quando affrontiamo apertamente i limiti dell’apprendimento automatico e li spieghiamo correttamente, i vantaggi supereranno gli svantaggi.
Eticamente e rispettoso della privacy. Combinando l’apprendimento automatico con dati aggregati sul lato del primo soggetto, sarà possibile costruire prodotti rispettosi della privacy e a prova di futuro, seguendo rigidi standard etici.
Prodotto robusto e di qualità. Costruire un prodotto basato su dati di localizzazione che non dipenda direttamente dalle fonti di dati GPS renderà il prodotto molto più robusto e affidabile. Inoltre, poiché il prodotto può basarsi su varie fonti di dati di alta qualità, il prodotto finale può avere una qualità media più elevata.
Minor volume di dati e costi. L’apprendimento automatico può funzionare con molto meno dati rispetto a quanto attualmente necessario per costruire prodotti basati su dati di localizzazione. Ciò consente l’indipendenza delle fonti di approvvigionamento ma elimina anche la memorizzazione inutile di grandi quantità di dati. Inoltre, i costi per l’elaborazione dei dati e la manutenzione sono relativamente più economici con un’infrastruttura di apprendimento automatico.
Nuova innovazione di prodotto. Dopo il miglioramento della privacy, forse uno dei vantaggi più grandi è la possibilità di una nuova innovazione di prodotto. L’apprendimento automatico, per sua natura, combina diversi set di dati e contesti e, quindi, consente la creazione di prodotti attualmente non disponibili nell’industria dei dati di localizzazione.
Sommario
L’industria dei dati di localizzazione è in rapida crescita ma ancora nelle prime fasi. La maggior parte dei prodotti basati sui dati di localizzazione sono semplici, non robusti e carenti in termini di privacy. I metodi basati sull’apprendimento automatico hanno il potenziale per apportare valore aggiuntivo a questa industria riducendo i costi, aumentando la qualità del prodotto e migliorando la privacy. Noi di Unacast crediamo che il futuro dell’industria dei dati di localizzazione risieda nella combinazione di aggregazione precoce dei dati in un formato non identificabile con tecniche di apprendimento automatico su queste aggregazioni e, con ciò, creare prodotti di insight sulla mobilità umana di alta qualità.
Tutte le immagini, salvo diversa indicazione, sono dell’autore.
Se vuoi saperne di più su di me e su ciò di cui sto scrivendo, dai un’occhiata qui e sentiti libero di seguirmi.