Introduzione alla Data Science Guida per principianti

Introduzione alla Data Science' - Guida per principianti

 

Non hai vissuto sotto una roccia negli ultimi due decenni, quindi penserai di sapere, più o meno, cosa sia la scienza dei dati. Probabilmente stai sperando di ottenere una breve panoramica di ciò che comporta, per imparare ciò di cui hai bisogno per iniziare a imparare la scienza dei dati e ottenere un lavoro.

Ecco i punti salienti di ciò che questo articolo ti darà:

  • Il punto principale della scienza dei dati: i dati arrivano e le intuizioni emergono. Il compito di un data scientist è gestire quel flusso di dati-intuizioni in ogni fase.
  • Quali strumenti, tecnologie e competenze ti serviranno per ottenere un lavoro nella scienza dei dati.
  • Il panorama generale della scienza dei dati come carriera.

Se sembra ciò che stai cercando, immergiamoci.

 

Cos’è la Scienza dei Dati?

 

Come ho detto prima, la scienza dei dati può essere meglio riassunta come un flusso di dati-intuizioni. Come data scientist, indipendentemente dall’azienda in cui ti trovi, svolgerai compiti come:

  • Estrarre dati
  • Pulirli o elaborarli
  • Analizzare i dati
  • Identificare pattern o tendenze
  • Costruire modelli predittivi e statistici basati sui dati
  • Visualizzare e comunicare i dati

In breve, stai risolvendo problemi, facendo previsioni, ottimizzando processi e guidando la presa di decisioni strategiche.

Perché pochissime aziende hanno una conoscenza approfondita di ciò che fa un data scientist, è probabile che tu abbia anche altre responsabilità. Alcuni datori di lavoro si aspettano che i data scientist aggiungano responsabilità di infosec o cybersecurity al loro ruolo. Altri possono aspettarsi che i data scientist abbiano competenze in cloud computing, gestione dei database, ingegneria dei dati o sviluppo software. Preparati a indossare molti cappelli.

Questo lavoro è importante non perché Harvard Business Review lo ha definito il lavoro più sexy del XXI secolo, ma perché i dati stanno aumentando in volume e pochissime persone sanno come trasformare i dati in intuizioni. Come data scientist, tu vedi la foresta per gli alberi.

Volume di dati/informazioni creati, catturati, copiati e consumati in tutto il mondo dal 2010 al 2020, con previsioni dal 2021 al 2025

 

 

Concetti Chiave della Scienza dei Dati

 

Ora hai un’idea generale. Diamo uno sguardo ad alcuni dei concetti chiave della scienza dei dati. Se riesci a immaginare quel flusso di dati-intuizioni, identificherò dove ogni concetto chiave entra in gioco.

 

Manipolazione dei dati

 

All’inizio di quel flusso, hai una massa di dati, di qualità mista. C’è una famosa (e erronea) statistica secondo cui i data scientist passano l’80% del loro tempo a pulire i dati. Anche se probabilmente non è così alto, costruire modelli e manipolare i dati è una parte importante del lavoro.

Immagina di essere un data scientist per un’azienda di e-commerce. Lì, la manipolazione dei dati potrebbe comportare la pulizia e la trasformazione dei dati delle transazioni dei clienti, la fusione e la conciliazione dei dati provenienti da diverse fonti come l’analisi del sito web e i sistemi di gestione delle relazioni con i clienti (CRM), e la gestione di dati mancanti o inconsistenti.

Potresti dover standardizzare i formati, rimuovere duplicati o NaN e gestire valori anomali o voci errate. Questo processo assicura che i dati siano accurati, coerenti e pronti per l’analisi.

 

Esplorazione e visualizzazione dei dati

 

Una volta che i dati sono stati sistemati, puoi iniziare a esaminarli. Potresti pensare che i data scientist inizino immediatamente a utilizzare modelli statistici sui dati, ma la verità è che ci sono troppi modelli. Prima di tutto, devi capire che tipo di dati hai. Poi puoi cercare intuizioni e previsioni significative.

Ad esempio, se sei un data scientist su GitHub, l’esplorazione dei dati comporterebbe l’analisi dell’attività e dell’interazione degli utenti sulla piattaforma. Potresti guardare metriche come il numero di commit, pull requests e issues, così come le interazioni e le collaborazioni degli utenti. Esplorando questi dati, acquisisci una comprensione di come gli utenti interagiscono con la piattaforma, identifichi i repository popolari e scopri le tendenze nelle pratiche di sviluppo del software.

E poiché la maggior parte degli esseri umani interpreta il significato delle immagini meglio di quello delle tabelle, la visualizzazione dei dati è inclusa anche nell’esplorazione dei dati. Ad esempio, come data scientist di GitHub, potresti utilizzare grafici a linea per mostrare il numero di commit nel tempo. I grafici a barre potrebbero essere utilizzati per confrontare la popolarità di diversi linguaggi di programmazione utilizzati sulla piattaforma. I grafici di rete potrebbero illustrare le collaborazioni tra utenti o repository.

Analisi statistica

A questo punto nel flusso di lavoro dei dati verso le intuizioni della data science, hai coperto i primi due terzi. I dati sono disponibili, li stai esaminando. Ora è il momento di estrarre intuizioni. Infine, sei pronto per applicare alcune analisi statistiche ai tuoi numeri.

Fingiamo di essere un data scientist in un’azienda come Hello Fresh. Potresti eseguire analisi statistiche come la regressione lineare per capire i fattori che influenzano il churn dei clienti, algoritmi di clustering per segmentare i clienti in base alle loro preferenze o comportamenti, o test di ipotesi per determinare l’efficacia delle campagne di marketing. Queste analisi statistiche aiutano a scoprire relazioni, modelli e scoperte significative all’interno dei dati.

Machine learning

La cosa interessante dei data scientist è che predicono il futuro. Visualizza il flusso di lavoro dei dati verso le intuizioni. Hai intuizioni su come sono le cose nel passato e nel presente. Ma il tuo capo potrebbe voler chiedere: beh, cosa succede se aggiungiamo un nuovo prodotto alla nostra offerta? Cosa succede se chiudiamo il lunedì? Cosa succede se convertiamo metà della nostra flotta in veicoli elettrici?

Come data scientist, guardi nella tua sfera di cristallo e crei previsioni intelligenti utilizzando il machine learning. Ad esempio, diciamo che sei un data scientist in un’azienda di logistica come FedEx. Potresti utilizzare dati storici di spedizione, dati meteorologici e altre variabili rilevanti per sviluppare modelli predittivi. Questi modelli possono prevedere volumi di spedizione, stimare tempi di consegna, ottimizzare la pianificazione del percorso o prevedere eventuali ritardi.

Utilizzando algoritmi di machine learning come la regressione, l’analisi delle serie temporali o le reti neurali, potresti prevedere l’impatto dell’aggiunta di un nuovo centro di distribuzione sui tempi di consegna, simulare gli effetti di diversi cambiamenti operativi sui costi di spedizione o prevedere la domanda dei clienti per servizi di spedizione specifici.

Comunicazione e business intelligence

Il concetto più importante nella data science non è il machine learning o la pulizia dei dati. È la comunicazione. Presenti queste intuizioni ai decision-maker della tua azienda che non conoscono una rete neurale da un algoritmo di boosting del gradiente. La comunicazione e la competenza aziendale sono entrambi concetti chiave nella data science.

Immagina di essere un data scientist in un’azienda come Meta. Hai appena scoperto una correlazione significativa tra le metriche di coinvolgimento degli utenti e i tassi di retention dei clienti, ma devi condividerla con un VP marketing che non è familiare con il concetto di “significato statistico”. Devi anche conoscere il valore a vita del cliente (CLV) per essere in grado di spiegare la rilevanza e l’importanza della tua scoperta.

Competenze essenziali per i data scientist

Abbiamo coperto i concetti chiave della data science. Ora diamo un’occhiata alle competenze essenziali che ti verranno richieste come data scientist. Ho affrontato alcune competenze più dettagliate per essere un data scientist qui se sei interessato a saperne di più.

Linguaggi di programmazione, interrogazione dei dati e visualizzazione dei dati

È difficile classificare le competenze in base alla loro importanza: i data scientist hanno bisogno di una combinazione di competenze, tutte altrettanto importanti. Detto questo, se c’è una competenza di cui non puoi assolutamente fare a meno, è la programmazione.

La programmazione si suddivide in diverse sfaccettature: hai bisogno di linguaggi di programmazione, tipicamente R o Python (o entrambi). Hai anche bisogno di linguaggi di interrogazione per il recupero e la manipolazione dei dati, come SQL (Structured Query Language) per i database relazionali. Infine, probabilmente dovrai conoscere altri linguaggi o programmi come Tableau per la visualizzazione dei dati, anche se vale la pena menzionare che gran parte della visualizzazione dei dati viene fatta con Python o R al giorno d’oggi.

Matematica

Ricordi le statistiche che ho menzionato in precedenza? Come data scientist, devi sapere come fare matematica. La visualizzazione dei dati arriva solo fino a un certo punto prima che tu abbia bisogno di una significatività statistica effettiva. Le competenze matematiche fondamentali includono:

  • Probabilità e Statistica: Distribuzioni di probabilità, test di ipotesi, inferenza statistica, analisi di regressione e analisi della varianza (ANOVA). Queste competenze ti consentono di fare giudizi statistici accurati e trarre conclusioni significative dai dati.
  • Algebra Lineare: Operazioni su vettori e matrici, risoluzione di sistemi di equazioni lineari, fattorizzazione di matrici, autovalori e autovettori e trasformazioni di matrici.
  • Calcolo: Dovrai essere familiare con concetti come derivate, gradienti e ottimizzazione per addestrare modelli, ottimizzare e perfezionare modelli.
  • Matematica Discreta: Argomenti come combinatoria, teoria dei grafi e algoritmi. Userai questi strumenti per analisi di rete, sistemi di raccomandazione e progettazione di algoritmi. È particolarmente importante per lo sviluppo di algoritmi che gestiscono dati su larga scala.

 

Gestione dei modelli

 

Parliamo dei modelli. Come data scientist, devi sapere come costruire, implementare e mantenere i modelli. Ciò include garantire che i modelli si integrino senza problemi con l’infrastruttura esistente, affrontare le questioni di scalabilità ed efficienza e valutare continuamente le loro prestazioni in scenari reali.

In termini di tecnologia, ciò significa che dovrai essere familiare con:

  • Librerie di Apprendimento Automatico: Queste includono scikit-learn in Python, TensorFlow, PyTorch o Keras per l’apprendimento profondo e XGBoost o LightGBM per il boosting del gradiente.
  • Framework per lo Sviluppo dei Modelli: Framework come Jupyter Notebook o JupyterLab per lo sviluppo interattivo e collaborativo dei modelli.
  • Piattaforme Cloud: Pensa ad Amazon Web Services (AWS), Microsoft Azure o Google Cloud Platform (GCP) per implementare e scalare i modelli di apprendimento automatico.
  • Apprendimento Automatico Automatizzato (AutoML): Google AutoML, H2O.ai o DataRobot automatizzano il processo di costruzione di modelli di apprendimento automatico senza la necessità di una codifica manuale approfondita.
  • Implementazione e Servizio dei Modelli: Docker e Kubernetes sono comunemente utilizzati per l’incapsulamento e la distribuzione dei modelli come contenitori. Questi consentono di implementare e scalare i modelli in diversi ambienti. Inoltre, strumenti come Flask o Django in Python ti consentono di creare API web per servire i modelli e integrarli nei sistemi di produzione.
  • Monitoraggio e Valutazione dei Modelli: Prometheus, Grafana o stack ELK (Elasticsearch, Logstash, Kibana) per l’aggregazione e l’analisi dei log. Questi strumenti aiutano a monitorare le metriche dei modelli, rilevare anomalie e garantire che i modelli continuino a funzionare bene nel tempo.

 

Comunicazione

 

Fino ad ora abbiamo parlato delle competenze “tecniche”. Ora pensiamo alle competenze “soft” di cui avrai bisogno. Come ho menzionato nella parte sui “concetti”, una grande competenza di cui hai bisogno è la comunicazione. Ecco alcuni esempi del tipo di comunicazione che dovrai fare come data scientist:

  • Racconto dei dati: Devi trasformare concetti tecnici complessi in narrazioni chiare, concise e convincenti che risuonino con il tuo pubblico, inclusa la significatività della tua analisi e le sue implicazioni per la presa di decisioni.
  • Visualizzazione: Sì, la visualizzazione dei dati ha una sua sezione nelle competenze di comunicazione. Oltre alle competenze tecniche per creare un grafico, dovresti anche sapere quando, che tipo e come parlare delle tue visualizzazioni dei dati.
  • Collaborazione e Lavoro di Squadra: Nessun data scientist lavora in un vuoto. Collaborerai con ingegneri dei dati, analisti aziendali ed esperti di settore. Esercita le tue competenze di ascolto attivo e di feedback costruttivo.
  • Gestione dei Clienti: Questo non vale per tutti i data scientist, ma a volte lavorerai direttamente con clienti o stakeholder esterni. Dovrai sviluppare solide competenze di gestione dei clienti, comprese la comprensione dei loro requisiti, la gestione delle aspettative e la fornitura di aggiornamenti regolari sul progresso del progetto.
  • Apprendimento Continuo e Adattabilità: Ultimo ma non meno importante, devi essere pronto a imparare cose nuove regolarmente. Rimani aggiornato sulle ultime novità nel campo e sii aperto ad acquisire nuove competenze e conoscenze quando necessario.

 

Competenza aziendale

 

Questo si riduce a sapere perché un numero è importante nel contesto della tua attività. Ad esempio, potresti scoprire che c’è una relazione altamente significativa tra le persone che comprano uova la domenica e il meteo. Ma perché è importante per la tua attività?

In questo caso, potresti analizzare ulteriormente e scoprire che gli acquisti di uova aumentati la domenica sono correlati al bel tempo, indicando che i clienti sono più propensi a svolgere attività all’aperto o organizzare brunch durante condizioni meteorologiche favorevoli. Questa informazione potrebbe essere utilizzata da un negozio di alimentari o un ristorante per pianificare il loro inventario e le attività promozionali di conseguenza.

Collegando i punti tra i modelli dei dati e i risultati aziendali, puoi fornire orientamenti strategici e raccomandazioni operative. Nell’esempio, ciò potrebbe comportare l’ottimizzazione delle campagne di marketing per i prodotti correlati alle uova durante i weekend di bel tempo o l’esplorazione di partnership con luoghi locali per brunch.

 

Flusso di lavoro della scienza dei dati

 

Cosa fa un data scientist? Per avere un’idea, diamo un’occhiata ai passaggi tipici coinvolti in un progetto di data science: formulazione del problema, raccolta dei dati, pulizia dei dati, analisi esplorativa dei dati, costruzione del modello, valutazione e comunicazione.

Illustrerò ogni passaggio con un esempio: per il resto di questa sezione, fai finta di lavorare come data scientist per un’azienda di e-commerce e il team di marketing dell’azienda desidera migliorare la fidelizzazione dei clienti.

 

1. Formulazione del problema:

 

Ciò significa affrontare l’obiettivo aziendale, chiarire l’affermazione del problema e definire le metriche chiave per misurare la fidelizzazione dei clienti.

Obiettiverai a identificare i fattori che contribuiscono all’abbandono dei clienti e sviluppare strategie per ridurre i tassi di abbandono.

Per misurare la fidelizzazione dei clienti, definisci metriche chiave tra cui il tasso di abbandono dei clienti, il valore a vita del cliente (CLV), il tasso di acquisto ripetuto o i punteggi di soddisfazione del cliente. Definendo queste metriche, stabilisci un modo quantificabile per monitorare e valutare l’efficacia delle tue strategie nel migliorare la fidelizzazione dei clienti.

 

2. Raccolta dei dati

 

Raccogli fonti di dati pertinenti, come la cronologia degli acquisti dei clienti, le informazioni demografiche, le interazioni sul sito web e i feedback dei clienti. Questi dati possono essere ottenuti da database, API o fonti di terze parti.

 

3. Pulizia dei dati

 

I dati raccolti conterranno quasi certamente valori mancanti, valori anomali o inconsistenze. Nella fase di pulizia dei dati, elabori e pulisci i dati gestendo i valori mancanti, rimuovendo i duplicati, affrontando i valori anomali e garantendo l’integrità dei dati.

 

4. Analisi esplorativa dei dati (EDA)

 

Successivamente, ottieni informazioni sui dati e comprendine le caratteristiche visualizzando i dati, esaminando i riassunti statistici, identificando correlazioni e scoprendo modelli o anomalie. Ad esempio, potresti scoprire che i clienti che effettuano frequenti acquisti tendono ad avere tassi di fidelizzazione più alti.

 

5. Costruzione del modello

 

Sviluppa modelli predittivi per analizzare la relazione tra diverse variabili e la fidelizzazione dei clienti. Ad esempio, potresti costruire un modello di machine learning come la regressione logistica o la random forest per prevedere la probabilità di abbandono dei clienti basata su vari fattori come la frequenza di acquisto, le informazioni demografiche dei clienti o le metriche di coinvolgimento sul sito web.

 

6. Valutazione

 

Valuta le prestazioni del tuo modello utilizzando metriche come accuratezza, precisione, richiamo o area sotto la curva ROC. Convalidi i modelli utilizzando tecniche come la cross-validazione o la suddivisione train-test per garantirne l’affidabilità.

 

7. Comunicazione

 

Hai scoperto alcuni risultati, ora condividili con il team. In linea con il nostro esempio, dovrai essere in grado di parlare in modo intelligente dei risultati dell’abbandono dei clienti nel contesto sia dell’azienda per cui lavori che del panorama aziendale più ampio. Fai in modo che le persone si interessino e spiega perché questo particolare risultato è importante e cosa dovrebbero fare al riguardo.

Ad esempio, dopo aver analizzato l’abbandono dei clienti, potresti scoprire una correlazione significativa tra i punteggi di soddisfazione del cliente e i tassi di abbandono.

Quando condividi questo con il team di marketing o i dirigenti senior, dovrai comunicare efficacemente le implicazioni e le intuizioni utili. Spiegheresti che concentrandoti sul miglioramento della soddisfazione del cliente attraverso un miglior supporto clienti, esperienze personalizzate o promozioni mirate, l’azienda può mitigare l’abbandono, trattenere più clienti e, in definitiva, aumentare il fatturato.

Inoltre, contestualizzeresti questa scoperta nel panorama aziendale più ampio. Confronta i tassi di abbandono della tua azienda con quelli dei concorrenti.

Ecco come passare dai dati grezzi a un reale input aziendale. Ricorda che la data science è iterativa e ciclica. Ripeterai i singoli passaggi di questo processo così come l’intero processo nel tuo impegno per trovare intuizioni interessanti, rispondere a domande aziendali e risolvere problemi per il tuo datore di lavoro.

 

Applicazioni della scienza dei dati

 

La data science è un campo vasto. Puoi trovare data scientist che lavorano in quasi ogni settore, in aziende di qualsiasi dimensione. È un ruolo critico.

Ecco alcuni esempi concreti per mostrare l’impatto della data science nella risoluzione di problemi complessi:

  • Sanità: Gli scienziati dei dati analizzano grandi volumi di dati medici per migliorare i risultati dei pazienti e la fornitura di assistenza sanitaria. Sviluppano modelli predittivi per identificare pazienti ad alto rischio, ottimizzare piani di trattamento e rilevare schemi di epidemie di malattie.
  • Finanza: Pensate alla valutazione del rischio, alla rilevazione delle frodi, al trading algoritmico e alla gestione del portafoglio. Gli scienziati dei dati sviluppano modelli che aiutano a prendere decisioni di investimento informate e a gestire i rischi finanziari.
  • Trasporti e logistica: Gli scienziati dei dati ottimizzano la pianificazione delle rotte, riducono il consumo di carburante, migliorano l’efficienza della catena di approvvigionamento e prevedono le esigenze di manutenzione.
  • Vendita al dettaglio e e-commerce: Gli scienziati dei dati analizzano i dati dei clienti, la cronologia degli acquisti, i modelli di navigazione e le informazioni demografiche per sviluppare modelli che favoriscono l’interazione con i clienti, aumentano le vendite e migliorano la soddisfazione dei clienti.

 

Iniziare con la scienza dei dati

 

Okey, questa è molta informazione. A questo punto dovresti avere una chiara comprensione di cosa sia la scienza dei dati, come funziona, quali strumenti e tecnologie dovresti conoscere e cosa fa uno scienziato dei dati.

Ora vediamo dove studiare e praticare la scienza dei dati. Questo potrebbe essere un articolo separato, quindi linkerò elenchi di risorse per iniziare.

  1. I migliori corsi gratuiti di scienza dei dati
  2. Le migliori risorse di apprendimento per la scienza dei dati (libri, corsi e tutorial)
  3. I migliori progetti di scienza dei dati in Python per principianti
  4. I migliori libri di informatica
  5. Le migliori pratiche di visualizzazione della scienza dei dati
  6. Dove ottenere dati per i tuoi progetti di scienza dei dati
  7. Le migliori piattaforme per praticare abilità chiave di scienza dei dati
  8. Le migliori comunità di scienza dei dati a cui unirsi

In generale, ti consiglio di fare questo:

  1. Fai una lista di controllo delle competenze necessarie, utilizzando questo post del blog e le descrizioni delle offerte di lavoro per gli scienziati dei dati.
  2. Inizia con le risorse gratuite per ottenere le basi, quindi cerca piattaforme a pagamento di qualità per imparare di più.
  3. Crea un portfolio di progetti e librerie.
  4. Pratica su piattaforme come Kaggle e StrataScratch.
  5. Ottieni una certificazione: alcune piattaforme come LinkedIn offrono certificazioni per dimostrare le tue competenze.
  6. Inizia a candidarti.
  7. Fai networking: unisciti a comunità, gruppi Slack e gruppi LinkedIn e partecipa a eventi.

In definitiva, puoi aspettarti che il processo richieda del tempo. Ma ne varrà la pena alla fine.

 

Opportunità di lavoro e percorso di carriera

 

Nonostante i licenziamenti nelle grandi aziende tech, secondo US News and World Report nel 2022, gli analisti della sicurezza delle informazioni, gli sviluppatori di software, gli scienziati dei dati e gli statistici sono tra i primi 10 lavori.

   

Il mercato del lavoro è ancora molto attivo. Le aziende vogliono ancora e hanno bisogno di scienziati dei dati. Ora, se hai difficoltà a trovare un lavoro come scienziato dei dati, ricorda che non devi partire da zero. Ti consiglio di iniziare come analista dei dati, ingegnere dei dati o ingegnere di machine learning e poi evolverti nel ruolo nel tempo. Potresti sempre iniziare come analista dei dati, ingegnere dei dati o ingegnere di machine learning.

 

Conclusione

 

È difficile scrivere un’introduzione alla scienza dei dati per il semplice fatto che è un campo enorme, in continua crescita e ogni giorno vengono aggiunte nuove tecnologie e strumenti. Se dovessi ricordare solo poche cose da questo post, sono queste:

  • La scienza dei dati adotta un approccio multidisciplinare. Avrai bisogno di competenze provenienti da diverse aree di conoscenza, tra cui statistica, machine learning, programmazione e conoscenza del dominio. E l’apprendimento non finisce mai.
  • La scienza dei dati è iterativa. È molto basata su processi, ma puoi aspettarti di ripetere, ottimizzare e aggiornare i tuoi processi man mano che continui. Lo scienziato dei dati di successo e felice abbraccia l’esperimento.
  • Le competenze soft sono fondamentali. Non puoi essere solo un esperto di Python; devi comunicare risultati e intuizioni a stakeholder non tecnici attraverso storie, numeri e immagini.

Spero che questo ti abbia dato un punto di partenza. La scienza dei dati è una carriera gratificante e stimolante. Se acquisisci le competenze e ti impegni, sarai in grado di entrare in questo campo in poco tempo.     Nate Rosidi è uno scienziato dei dati e stratega di prodotto. È anche un professore a contratto che insegna analytics ed è il fondatore di StrataScratch, una piattaforma che aiuta gli scienziati dei dati a prepararsi per i loro colloqui con domande di intervista reali di importanti aziende. Connettiti con lui su Twitter: StrataScratch o LinkedIn.