3 Progetti di Data Science Garantiti per Ottenere Quel Lavoro

3 Progetti di Data Science Sicuri per Ottenere Quel Lavoro

 

Una dichiarazione piuttosto audace! Affermare che posso garantire a qualcuno di ottenere un lavoro.

OK, la verità è che nulla nella vita è garantito, specialmente trovare un lavoro. Neanche nel campo della scienza dei dati. Ma ciò che ti avvicinerà molto, molto vicino alla garanzia è avere progetti di dati nel tuo portfolio.

Perché penso che i progetti siano così decisivi? Perché, se scelti saggiamente, mostrano in modo più efficace la gamma e la profondità delle tue competenze tecniche nella scienza dei dati. Conta la qualità dei progetti, non il loro numero. Dovrebbero coprire il maggior numero possibile di competenze nella scienza dei dati.

Allora, quali progetti ti garantiscono il minor numero di progetti? Se dovessi limitarti a fare solo tre progetti, sceglierei questi.

  1. Insights dai dati di offerta e domanda delle città
  2. Previsione del churn dei clienti
  3. Polizia predittiva

Ma non prenderlo alla lettera. Il messaggio qui non è che devi attenerti strettamente a questi tre. Li ho selezionati perché coprono la maggior parte delle competenze tecniche richieste nella scienza dei dati. Se vuoi fare altri progetti di scienza dei dati, sentiti libero di farlo. Ma se sei limitato dal tempo/numero di progetti, scegli saggiamente e seleziona quelli che metteranno alla prova la più ampia gamma di competenze nella scienza dei dati.

Parlando di questo, facciamo chiarezza su cosa sono.

 

Competenze tecniche da cercare nei progetti di scienza dei dati

 

Ci sono cinque competenze fondamentali nella scienza dei dati.

  • Python
  • Manipolazione dei dati
  • Analisi statistica
  • Apprendimento automatico
  • Visualizzazione dei dati

Questa è una checklist che dovresti considerare quando cerchi di ottenere il massimo dai progetti di scienza dei dati che scegli.

Ecco una panoramica di cosa comprendono queste competenze.

  

Certo, ci sono molte altre competenze nella scienza dei dati. Includono anche la conoscenza di SQL e R, tecnologie di big data, deep learning, elaborazione del linguaggio naturale e cloud computing.

Tuttavia, la necessità di queste competenze dipende molto dalla descrizione del lavoro. Ma le cinque competenze fondamentali che ho menzionato, non puoi farne a meno.

Ora diamo un’occhiata a come i tre progetti di scienza dei dati che ho scelto sfidano queste competenze.

 

3 progetti di scienza dei dati per esercitare le competenze fondamentali della scienza dei dati

 

Alcuni di questi progetti potrebbero essere un po’ troppo avanzati per alcuni. In tal caso, prova questi 19 progetti di scienza dei dati per principianti.

 

1. Comprendere l’offerta e la domanda delle città: Analisi aziendale

 

Fonte: Insights dai dati di offerta e domanda delle città

Argomento: Analisi aziendale

Panoramica sintetica: Le città sono centri di interazioni tra domanda e offerta per Uber. Analizzarle può offrire informazioni sul business e la pianificazione dell’azienda. Uber ti fornisce un dataset con dettagli sui viaggi. Devi rispondere a undici domande per fornire una visione aziendale sui viaggi, il loro tempo, la domanda di autisti, ecc.

Esecuzione del progetto: Ti vengono fornite undici domande che devono essere risposte nell’ordine indicato. Rispondere a queste domande comporterà compiti come:

  • Compilare i valori mancanti,
  • Aggregare i dati,
  • Trovare i valori più grandi,
  • Analizzare l’intervallo di tempo,
  • Calcolare le percentuali,
  • Calcolare le medie ponderate,
  • Trovare le differenze,
  • Visualizzare i dati, e così via.

Competenze mostrate: Analisi esplorativa dei dati (EDA) per la selezione delle colonne necessarie e il riempimento dei valori mancanti, ottenere informazioni utili sui viaggi completati (diversi periodi, rapporto medio ponderato di viaggi per conducente, trovare le ore più trafficate per aiutare a redigere un programma del conducente, la relazione tra offerta e domanda, ecc.), visualizzare la relazione tra offerta e domanda.

2. Predizione dell’abbandono dei clienti: Un compito di classificazione

Fonte: Predizione dell’abbandono dei clienti

Argomento: Apprendimento supervisionato (classificazione)

Sintesi breve: In questo progetto di scienza dei dati, Sony Research ti fornisce un dataset dei clienti di un’azienda di telecomunicazioni. Si aspettano che tu esegua un’analisi esplorativa ed estragga informazioni. Successivamente dovrai costruire un modello di predizione dell’abbandono, valutarlo e discutere le problematiche legate al deploy del modello in produzione.

Esecuzione del progetto: Il progetto dovrebbe essere affrontato in queste fasi principali.

  • Analisi esplorativa ed estrazione di informazioni
    • Verifica dei fondamenti dei dati (nulli, unicità)
    • Scegli i dati di cui hai bisogno e forma il tuo dataset
    • Visualizza i dati per controllare la distribuzione dei valori
    • Forma una matrice di correlazione
    • Verifica l’importanza delle caratteristiche
  • Divisione dei dati in train/test
    • Usa sklearn per suddividere il dataset in training e testing utilizzando un rapporto dell’80%-20%
  • Modello predittivo
    • Applica classificatori e scegli uno da utilizzare in produzione in base alle prestazioni
  • Metriche
    • Utilizza l’accuratezza e il punteggio F1 per confrontare le prestazioni di diversi algoritmi
  • Risultati del modello
    • Utilizza modelli di apprendimento automatico classici
    • Visualizza l’albero decisionale e verifica le prestazioni degli algoritmi basati su alberi
  • Modello di deep learning
    • Prova una rete neurale artificiale (ANN) per risolvere questo problema
  • Problemi legati al deploy
    • Monitora le prestazioni del modello per evitare derive dei dati e del concetto

Competenze mostrate: Analisi esplorativa dei dati (EDA) e data wrangling per controllare nulli, unicità dei dati, ottenere informazioni sulla distribuzione dei dati e sulle correlazioni positive e negative; visualizzazione dei dati mediante istogrammi e matrice di correlazione; applicazione di classificatori di apprendimento automatico utilizzando la libreria sklearn, misurazione dell’accuratezza degli algoritmi e del punteggio F1, confronto degli algoritmi, visualizzazione dell’albero decisionale; utilizzo della rete neurale artificiale per valutare le prestazioni del deep learning; deploy del modello dove è necessario tener conto dei problemi di drift dei dati e del concetto nel ciclo MLOps.

3. Polizia predittiva: Esaminare le implicazioni

Fonte: I pericoli della polizia predittiva

Argomento: Apprendimento supervisionato (regressione)

Sintesi breve: Questa tecnica di polizia predittiva utilizza algoritmi e analisi dei dati per prevedere dove è più probabile che si verifichino crimini. L’approccio scelto può avere profonde implicazioni etiche e sociali. Si utilizzano i dati sui crimini della città di San Francisco del 2016 provenienti dalla sua iniziativa dati aperti. Il progetto cercherà di prevedere il numero di incidenti criminosi in un determinato codice postale in un certo giorno della settimana e in determinate ore del giorno.

Esecuzione del progetto: Ecco i principali passaggi intrapresi dall’autore del progetto.

  • Selezionare le variabili e calcolare il numero totale di crimini per anno per codice postale per ora
  • Dividere i dati di allenamento/test in ordine cronologico

  • Provare cinque algoritmi di regressione:

    • Regressione lineare
    • Random Forest
    • K-Nearest Neighbors
    • XGBoost
    • Multilayer Perceptron

Abilità demonstrate: Analisi esplorativa dei dati (EDA) e gestione dei dati, in cui si ottengono informazioni sui crimini, l’ora, il giorno della settimana e il codice postale; ML (apprendimento supervisionato/regressione), in cui si prova come si comportano la regressione lineare, il regressore random forest, il K-nearest neighbor, XGBoost; apprendimento profondo, in cui si utilizza il multilayer perceptron per cercare di spiegare i risultati ottenuti; derivazione di intuizioni sulla previsione dei crimini e sulla possibilità di un suo uso improprio; implementazione del modello in una mappa interattiva.

Se volete fare altri progetti utilizzando abilità simili, qui ci sono più di 30 idee di progetti di ML.

 

Conclusione

 

Completando questi progetti di data science, testerete e acquisirete competenze essenziali di data science, come la gestione dei dati, la visualizzazione dei dati, l’analisi statistica, la costruzione e l’implementazione di modelli di ML.

Parlando di ML, qui mi sono concentrato sull’apprendimento supervisionato, poiché è più comunemente utilizzato nella data science. Posso quasi garantirvi che questi progetti di data science saranno sufficienti per ottenere un lavoro desiderato.

Tuttavia, dovreste leggere attentamente la descrizione del lavoro. Se vedete che richiede apprendimento non supervisionato, NLP o qualcos’altro che non ho trattato qui, includete uno o due progetti simili nel vostro portfolio.

In ogni caso, non siete limitati a soli tre progetti. Sono qui per guidarvi nella scelta dei progetti che vi garantiranno un lavoro. Fate attenzione alla complessità dei progetti, poiché dovrebbero coprire ampiamente le competenze fondamentali della data science.

Ora, andate e conquistate quel lavoro! Nate Rosidi è un data scientist specializzato in strategie di prodotto. È anche professore a contratto di analisi e fondatore di StrataScratch, una piattaforma che aiuta i data scientist a prepararsi per i colloqui con domande reali delle migliori aziende. Potete contattarlo su Twitter: StrataScratch o su LinkedIn.