12 Modelli Mentali per la Scienza dei Dati

12 Mental Models for Data Science

Concetti potenti per navigare il panorama della scienza dei dati

Foto di Júnior Ferreira su Unsplash

Introduzione

Nel campo in continua evoluzione della scienza dei dati, le abilità tecniche per gestire e analizzare i dati sono indubbiamente cruciali per qualsiasi progetto di dati. Oltre alle competenze tecniche e soft, un data scientist esperto può sviluppare nel tempo uno strumentario concettuale noto come modelli mentali per aiutarlo a navigare nel panorama dei dati.

I modelli mentali non sono solo utili per la scienza dei dati, James Clear (autore di Atomic Habits) ha fatto un ottimo lavoro nell’esplorare come i modelli mentali possano aiutarci a pensare meglio e nella loro utilità in un’ampia gamma di campi (business, scienza, ingegneria, ecc.) in questo articolo.

Come un falegname che utilizza strumenti diversi per compiti diversi, un data scientist utilizza modelli mentali diversi a seconda del problema che ha di fronte. Questi modelli forniscono un modo strutturato per risolvere problemi e prendere decisioni. Ci permettono di semplificare situazioni complesse, evidenziare informazioni rilevanti e fare congetture educate sul futuro.

Questo blog presenta dodici modelli mentali che possono aiutare a migliorare la produttività nella scienza dei dati. In particolare, lo facciamo illustrando come questi modelli possono essere applicati nel contesto della scienza dei dati seguiti da una breve spiegazione di ciascuno. Che tu sia un data scientist esperto o un nuovo arrivato nel campo, la comprensione di questi modelli può essere utile nella tua pratica della scienza dei dati.

1. Spazzatura dentro, spazzatura fuori

Il primo passo per qualsiasi analisi di dati è garantire che i dati che stai usando siano di alta qualità, poiché qualsiasi conclusione che ne trai sarà basata su questi dati. Inoltre, ciò potrebbe significare che anche l’analisi più sofisticata non può compensare i dati di scarsa qualità. In poche parole, questo concetto enfatizza che la qualità dell’output è determinata dalla qualità dell’input. Nel contesto del lavoro con i dati, la manipolazione e la pre-elaborazione di un set di dati aiuterebbe quindi ad aumentare la qualità dei dati.

Immagine disegnata dall'autore.

2. Legge dei grandi numeri

Dopo aver garantito la qualità dei tuoi dati, il passo successivo è spesso quello di raccoglierne di più. La legge dei grandi numeri spiega perché avere più dati porta generalmente a modelli più accurati. Questo principio suggerisce che all’aumentare delle dimensioni del campione, la sua media si avvicina anche alla media dell’intera popolazione. Questo è fondamentale nella scienza dei dati perché sottende la logica di raccogliere più dati per migliorare la generalizzazione e l’accuratezza del modello.

Immagine disegnata dall'autore.

3. Bias di conferma

Dopo aver raccolto i dati, devi fare attenzione a come li interpreti. Il bias di conferma è un promemoria per evitare di cercare solo dati che supportano le tue ipotesi e di considerare tutte le prove. In particolare, il bias di conferma si riferisce alla tendenza a cercare, interpretare, favorire e ricordare le informazioni in modo che confermi le proprie credenze o ipotesi preesistenti. Nella scienza dei dati, è cruciale essere consapevoli di questo bias e cercare prove che confermino e che smentiscano le ipotesi.

Immagine disegnata dall'autore.

4. P-hacking

Questo è un altro concetto importante da tenere a mente durante la fase di analisi dei dati. Si riferisce all’uso improprio dell’analisi dei dati per trovare selettivamente modelli nei dati che possono essere presentati come statisticamente significativi, portando quindi a conclusioni errate. Per mettere questo in modo visuale, l’individuazione di risultati statisticamente significativi rari (sia intenzionalmente che per caso) può essere presentata selettivamente. Pertanto, è importante essere consapevoli di questo per garantire analisi dei dati robuste e oneste.

Immagine disegnata dall'autore.

5. Paradosso di Simpson

Questo paradosso ci ricorda che quando si analizzano i dati, è importante considerare come diversi gruppi possano influire sui risultati. Serve come avvertimento sui pericoli di omettere il contesto e di non considerare le possibili variabili di confondimento. Questo fenomeno statistico si verifica quando una tendenza appare in diversi gruppi di dati, ma scompare o si ribalta quando questi gruppi vengono combinati. Questo paradosso può essere risolto quando le relazioni causali sono appropriate.

Immagine disegnata dall'autore.

6. Regola 80/20 di Pareto

Una volta che i dati sono compresi e il problema è stato definito, questo modello può aiutare a dare priorità alle caratteristiche su cui concentrarsi nel modello, poiché suggerisce che un piccolo numero di cause porta spesso a una grande proporzione dei risultati.

Questo principio suggerisce che per molti risultati, circa l’80% delle conseguenze proviene dal 20% delle cause. Nella scienza dei dati, ciò potrebbe significare che una grande parte del potere predittivo di un modello deriva da un piccolo sottoinsieme delle caratteristiche.

Immagine disegnata dall'autore.

7. Rasoio di Occam

Questo principio suggerisce che la spiegazione più semplice è di solito la migliore. Quando si inizia a costruire modelli, il rasoio di Occam suggerisce di preferire modelli più semplici quando funzionano allo stesso modo di quelli più complessi. Quindi, è un promemoria per non complicare inutilmente i modelli.

Immagine disegnata dall'autore.

8. Bilanciamento bias-varianza

Questo modello mentale descrive l’equilibrio che deve essere raggiunto tra bias e varianza, che sono le due fonti di errore in un modello. Il bias è un errore causato dalla semplificazione di un problema complesso per renderlo più facile per il modello di apprendimento automatico da comprendere e che di conseguenza porta a un sottoadattamento. La varianza è un errore che deriva dall’eccessivo enfasi del modello sui dettagli dei dati di formazione che di conseguenza porta a un sovraadattamento. Quindi, il giusto equilibrio della complessità del modello per minimizzare l’errore totale (una combinazione di bias e varianza) può essere raggiunto attraverso un compromesso. In particolare, la riduzione del bias tende ad aumentare la varianza e viceversa.

Immagine disegnata dall'autore.

9. Sovraadattamento contro sottoadattamento

Questo concetto è strettamente legato al bilanciamento bias-varianza e aiuta a guidare ulteriormente l’ottimizzazione della complessità del modello e della sua capacità di generalizzare su nuovi dati.

Il sovraadattamento si verifica quando un modello è eccessivamente complesso e apprende troppo bene i dati di formazione riducendo quindi la sua efficacia sui dati nuovi e non visti. Il sottoadattamento si verifica quando un modello è troppo semplice per catturare la struttura sottostante dei dati causando quindi una scarsa performance sia sui dati di formazione che su quelli non visti.

Quindi, un buon modello di apprendimento automatico potrebbe essere raggiunto trovando un equilibrio tra sovraadattamento e sottoadattamento. Ad esempio, questo potrebbe essere raggiunto attraverso tecniche come la cross-validazione, la regolarizzazione e la potatura.

10. La coda lunga

La coda lunga può essere vista in distribuzioni come la distribuzione di Pareto o la legge di potenza, dove è possibile osservare una frequenza elevata di eventi a basso valore e una bassa frequenza di eventi ad alto valore. La comprensione di queste distribuzioni può essere cruciale quando si lavora con dati reali, poiché molte fenomeni naturali seguono tali distribuzioni.

Ad esempio, nell’engagement dei social media, un piccolo numero di post riceve la maggior parte dei like, delle condivisioni o dei commenti, ma c’è una lunga coda di post che riceve meno interazioni. Collettivamente, questa lunga coda può rappresentare una porzione significativa dell’attività complessiva dei social media. Ciò attira l’attenzione sulla importanza e il potenziale degli eventi meno popolari o rari, che altrimenti potrebbero essere trascurati se ci si concentra solo sulla “testa” della distribuzione.

Immagine disegnata dall'autore.

11. Pensiero Bayesiano

Il pensiero bayesiano si riferisce a un processo dinamico e iterativo di aggiornamento delle nostre convinzioni basato su nuove evidenze. Inizialmente, abbiamo una convinzione o un “prior”, che viene aggiornato con nuovi dati, formando una convinzione rivista o “posteriore”. Questo processo continua man mano che si raccolgono ulteriori evidenze, affinando ulteriormente le nostre convinzioni nel tempo. In data science, il pensiero bayesiano consente di apprendere dai dati e di fare previsioni, spesso fornendo una misura di incertezza su tali previsioni. Questo sistema di convinzioni adattive aperto alle nuove informazioni può essere applicato non solo in data science ma anche nelle nostre decisioni quotidiane.

Immagine disegnata dall'autore.

12. Teorema del Pranzo Gratis

Il teorema del pranzo gratis afferma che non esiste un singolo algoritmo di machine learning che eccelle nel risolvere ogni problema. Di conseguenza, è importante comprendere le caratteristiche uniche di ciascun problema di dati, poiché non esiste un algoritmo universalmente superiore. Di conseguenza, i data scientist sperimentano una varietà di modelli e algoritmi per trovare la soluzione più efficace, considerando fattori come la complessità dei dati, le risorse computazionali disponibili e il compito specifico in questione. Il teorema può essere pensato come una cassetta degli attrezzi piena di strumenti, ognuno dei quali rappresenta un diverso algoritmo, e l’esperienza sta nella selezione del giusto strumento (algoritmo) per il giusto compito (problema).

Immagine disegnata dall'autore.

Conclusioni

Questi modelli forniscono un quadro robusto per ciascuno dei passaggi di un tipico progetto di data science, dalla raccolta e pre-elaborazione dei dati alla costruzione, raffinamento e aggiornamento del modello. Aiutano a navigare il complesso panorama delle decisioni basate sui dati, consentendoci di evitare le trappole comuni, di prioritizzare efficacemente e di fare scelte informate.

Tuttavia, è essenziale ricordare che nessun singolo modello mentale contiene tutte le risposte. Ogni modello è uno strumento e, come tutti gli strumenti, è più efficace quando usato appropriatamente. In particolare, la natura dinamica e iterativa della data science significa che questi modelli non vengono semplicemente applicati in modo lineare. Man mano che diventano disponibili nuovi dati o che la nostra comprensione di un problema evolve, potremmo tornare a passi precedenti per applicare diversi modelli e regolare le nostre strategie di conseguenza.

In definitiva, l’obiettivo di utilizzare questi modelli mentali in data science è quello di estrarre informazioni preziose dai dati, creare modelli significativi e prendere decisioni migliori. In questo modo, possiamo sbloccare il pieno potenziale della data science e utilizzarlo per stimolare l’innovazione, risolvere problemi complessi e creare un impatto positivo in vari campi (ad es. bioinformatica, scoperta di farmaci, assistenza sanitaria, finanza, ecc.).

Se hai trovato utile questo articolo, diventa un membro di Nisoo per supportarmi come scrittore. Costa $5 al mese e dà…

data-professor.medium.com

Leggi questi prossimi …

Come padroneggiare Scikit-learn per la data science

Ecco l’essenziale di Scikit-learn di cui hai bisogno per la scienza dei dati

towardsdatascience.com

Come padroneggiare Python per la scienza dei dati

Ecco l’essenziale di Python di cui hai bisogno per la scienza dei dati

towardsdatascience.com

Guarda questo prossimo…

  • Playlist di Streamlit su YouTube – una crescente raccolta di 52 video tutorial di Streamlit che ho creato sul mio canale YouTube Data Professor.