4 Idee Statistiche Importanti Che Dovresti Comprendere in un Mondo Guidato dai Dati

'4 Idee Statistiche Importanti in un Mondo Guidato dai Dati'

Non è necessario essere un esperto di statistica per navigare nel mondo moderno, ma ecco alcune idee di base che dovresti capire.

Foto di Anne Nygård su Unsplash

Non ha senso evitare la realtà. La scienza dei dati, e più in generale, le strutture basate sui dati, sono al centro della società che stiamo costruendo.

Quando l’entusiasmo per l’informatica ha colpito per la prima volta nei primi anni 2000, molti hanno notato che l’informatica sarebbe diventata una parte integrante di ogni settore. Questo si è dimostrato vero. Le aziende di tutti i settori – sanità, ingegneria, finanza, ecc. – hanno iniziato ad assumere ingegneri del software per varie forme di lavoro. Gli studenti di questi settori hanno iniziato ad imparare a programmare.

Io sostenerei che la nuova ondata di scienza dei dati va oltre. Con l’informatica, si poteva cavarsela assumendo solo ingegneri del software. Un responsabile aziendale o un esperto di vendite non aveva necessariamente bisogno di capire cosa facevano queste persone.

Ma la scienza dei dati è più ampia e inclusiva. Poiché è un mix di diverse discipline [1], le sue idee sono rilevanti anche per coloro che potrebbero non essere scienziati dei dati a tempo pieno.

In questo articolo, darò una panoramica generale di quattro importanti concetti statistici che tutti dovrebbero capire, indipendentemente dal titolo di lavoro ufficiale. Che tu sia un project manager, un recruiter o persino un CEO, una certa familiarità con questi concetti sicuramente ti aiuterà nel tuo lavoro. Inoltre, al di fuori del contesto lavorativo, la familiarità con questi concetti ti fornirà una sensibilità verso i dati indispensabile per navigare nella società moderna.

Andiamo avanti.

Solo un grande, cattivo campione

Quando ero ancora uno studente universitario, il primo corso di scienza dei dati che ho seguito era frequentato da un enorme numero di studenti, quasi 2000. Il corso, Fondamenti della scienza dei dati, era uno dei più popolari del campus, in quanto era stato progettato per essere accessibile agli studenti di tutti i dipartimenti. Invece di affrontare immediatamente matematica avanzata e programmazione, si concentrava su idee di alto livello che potevano avere un impatto sugli studenti di tutti i campi.

Durante una delle prime lezioni, il professore ha fatto una dichiarazione che mi è rimasta impressa nel corso degli anni, tornando alla mente ogni volta che lavoro su qualcosa legato ai dati. Stava parlando del campionamento casuale, un termine ampio che riguarda la scelta di un sottoinsieme di una popolazione di studio in modo che rappresenti l’intera popolazione. L’idea è che lo studio del sottoinsieme dovrebbe consentire di trarre conclusioni sull’intera popolazione.

Ha sottolineato che avere un buon campione è di estrema importanza, poiché nessuna quantità di manipolazione matematica o tecniche sofisticate può compensare un sottoinsieme che non è effettivamente rappresentativo della popolazione che si desidera emulare. Nel sottolineare questo punto, ha menzionato che molte persone assumono che se un campione iniziale è cattivo, allora una soluzione ragionevole è continuare con lo stesso approccio, ma raccogliere un campione più ampio.

“Allora, avrai semplicemente un campione molto grande, molto cattivo”, ha detto alla grande aula piena di studenti universitari.

Capire questo punto fondamentale – e le sue implicazioni più ampie – ti permetterà di comprendere molti fenomeni sociopolitici che si danno per scontati. Perché i sondaggi presidenziali sono spesso inesatti? Cosa fa fallire un modello di apprendimento automatico apparentemente potente nel mondo reale? Perché alcune aziende producono prodotti che non vedranno mai la luce del giorno?

Spesso, la risposta si trova nel campione.

“Errore” non significa “errore”

Questo argomento è implicito nella maggior parte dei corsi che coinvolgono dati o statistica, ma la mia discussione qui è ispirata dall’enfasi di Alberto Cairo su questo punto nel suo eccellente libro, How Charts Lie.

La premessa del libro di Cairo è delineare i vari modi in cui le visualizzazioni dei dati possono essere utilizzate per ingannare le persone, sia involontariamente che malevolmente. In un capitolo, Cairo approfondisce le sfide della visualizzazione dell’incertezza nei dati e come ciò possa portare a visualizzazioni dei dati fuorvianti.

Inizia con una discussione sull’idea di errore nelle statistiche. Sottolinea un punto cruciale: mentre nell’inglese standard, il termine “errore” è sinonimo di “sbaglio”, questo non è affatto il caso nel campo delle statistiche.

Il concetto di errore statistico ha a che fare con l’incertezza. Ci sarà quasi sempre una forma di errore nelle misurazioni e nei modelli. Questo è correlato al punto precedente riguardo ai campioni. Poiché non si dispone di ogni punto dati per una popolazione che si desidera descrivere, si affronta per definizione l’incertezza. Questo è ulteriormente accentuato se si fanno previsioni su punti dati futuri, poiché non esistono ancora.

La minimizzazione e l’affrontare l’incertezza sono una parte essenziale della statistica e della scienza dei dati, ma vanno molto oltre lo scopo di questo articolo. Qui, il punto principale che dovresti interiorizzare è che solo perché una scoperta statistica ti viene data con una misura di incertezza non significa che sia errata. In effetti, questo è probabilmente un indicatore che chi ha prodotto le scoperte sapeva cosa stava facendo (dovresti essere scettico riguardo alle affermazioni statistiche fatte senza alcun riferimento al livello di incertezza).

Impara il modo corretto di interpretare l’incertezza nelle affermazioni statistiche [2], invece di considerarle errate. È una distinzione essenziale.

Non puoi sempre “creare un modello per questo”

Tra la popolazione generale, sembra esserci questa idea che l’intelligenza artificiale sia una sorta di strumento magico che può realizzare qualsiasi cosa. Con l’avvento delle auto a guida autonoma e degli assistenti virtuali realistici ma senza una simile accelerazione nell’alfabetizzazione generale dei dati, non sorprende che si sia sviluppata questa mentalità.

Sfortunatamente, non potrebbe essere più lontano dalla verità. L’IA non è magia. Dipende fortemente da buoni dati e i suoi risultati possono essere molto ingannevoli se i dati di base sono di scarsa qualità.

Una volta ho avuto un collega a cui era stato assegnato un progetto in cui il suo compito era quello di costruire un modello di apprendimento automatico per un obiettivo specifico. Doveva classificare eventi futuri in determinate categorie basate sui dati storici.

C’era solo un problema: non aveva dati. Gli altri del progetto (che, notoriamente, non erano familiari con la scienza dei dati) continuavano a insistere sul fatto che avrebbe dovuto semplicemente creare il modello anche se non aveva i dati, perché l’apprendimento automatico è super potente e ciò dovrebbe essere fattibile. Non capivano che la loro richiesta semplicemente non era realizzabile.

Sì, l’apprendimento automatico è potente e sì, stiamo migliorando nel compiere compiti più interessanti e migliori grazie ad esso. Tuttavia, al momento attuale, non è solo una soluzione magica per tutto. Faresti bene a ricordartelo.

I Numeri Mentono

Le persone ripetono la frase “i numeri non mentono” come se fosse coriandoli.

Oh, se solo sapessero. I numeri in realtà mentono. Molto. In alcuni contesti, ancora più spesso di quanto dicano la verità. Ma non mentono perché sono effettivamente errati nella forma grezza; mentono perché la persona media non sa come interpretarli.

Ci sono innumerevoli esempi di come i numeri possano essere distorti, manipolati, modificati e trasformati al fine di sostenere l’argomento che si desidera fare. Per sottolineare il punto, qui coprirò un esempio di come ciò possa essere fatto: non tener conto delle distribuzioni di popolazione sottostanti quando si fanno affermazioni generali.

Da solo, ciò è un po’ vago, quindi diamo un’occhiata a un esempio. Considera lo scenario seguente, spesso proposto agli studenti di medicina:

Supponiamo che una certa malattia colpisca 1 su 1000 persone in una popolazione. C’è un test per verificare se una persona ha questa malattia. Il test non produce falsi negativi (ovvero, chiunque abbia la malattia risulterà positivo al test), ma il tasso di falsi positivi è del 5% (c’è una probabilità del 5% che una persona risulterà positiva al test anche se non ha la malattia). Supponiamo che una persona selezionata casualmente dalla popolazione faccia il test e risulti positiva. Qual è la probabilità che abbia effettivamente la malattia?

Ad una prima occhiata, una risposta ragionevole, data da molte persone, è del 95%. Alcuni potrebbero persino sospettare che non sia del tutto accurato dal punto di vista matematico utilizzare solo il tasso di falsi positivi per fare questa determinazione, ma probabilmente indovinerebbero comunque che la risposta si avvicina a quel valore.

Sfortunatamente, la risposta corretta non è del 95%, né vicina ad esso. La probabilità effettiva che questa persona selezionata casualmente abbia la malattia è approssimativamente del 2%.

La ragione per cui la maggior parte delle persone si discosta così tanto dalla risposta corretta è perché, mentre prestano attenzione al basso tasso di falsi positivi, non tengono conto della prevalenza sottostante della malattia nella popolazione: solo 1 su 1000 (o lo 0,1%) delle persone nella popolazione ha effettivamente questa malattia. Di conseguenza, quel tasso di falsi positivi del 5% finisce per influenzare molte persone perché così poche di loro hanno la malattia inizialmente. In altre parole, ci sono molte, molte opportunità di essere un falso positivo.

La matematica formale dietro a tutto ciò è al di là dello scopo di questo particolare articolo, ma puoi trovare una spiegazione dettagliata qui se sei interessato [3]. Detto questo, non è necessario immergersi nella matematica per cogliere il punto principale: Si potrebbe immaginare di utilizzare lo scenario sopra descritto per spaventare una persona facendole credere di essere molto più a rischio di una malattia di quanto realmente sia. I numeri da soli possono spesso essere distorti e/o interpretati erroneamente per promuovere false credenze.

Sii vigile.

Considerazioni finali e riassunto

Ecco una piccola guida pratica dei punti principali di questo articolo:

  1. Un grande campione ≠ Un buon campione. Ci vuole più di quantità per garantire una rappresentazione accurata di una popolazione.
  2. In statistica, “errore” non significa “errore”. Ha a che fare con l’incertezza, che è un elemento inevitabile del lavoro statistico.
  3. Il machine learning e l’intelligenza artificiale non sono magici. Si basano pesantemente sulla qualità dei dati sottostanti.
  4. I numeri possono essere ingannevoli. Quando qualcuno fa una dichiarazione statistica, specialmente in un contesto non accademico (leggi: nelle notizie), valutala attentamente prima di accettare le conclusioni.

Non è necessario essere esperti di statistica per navigare in questo mondo basato sui dati, ma sarebbe utile comprendere alcune idee fondamentali e sapere quali trappole evitare. Spero che questo articolo ti abbia aiutato a fare il primo passo in questa direzione.

Fino alla prossima volta.

Riferimenti

[1] https://towardsdatascience.com/the-three-building-blocks-of-data-science-2923dc8c2d78 [2] https://bookdown.org/jgscott/DSGI/statistical-uncertainty.html [3] https://courses.lumenlearning.com/waymakermath4libarts/chapter/bayes-theorem/