Cosa fa esattamente un Data Scientist?
What does a Data Scientist exactly do?
Le mie oneste riflessioni dopo aver lavorato in 3 diverse squadre di Data Science (suggerimento: c’è molto più PowerPoint di quanto si pensi)

I Data Scientist sono stati chiamati in molti modi:
- “Un Data Scientist è uno statistico che vive a San Francisco”
- “Modellisti professionisti, ma non così”
- “Mi pagano per cercare su Stack Overflow”
- “Vendo magia agli esecutivi”
O, il mio preferito personale:
- “La Data Science è la statistica su un Mac”
Come mostra questo assortimento di descrizioni di lavoro, può essere davvero difficile avere un’immagine chiara di cosa comporti effettivamente il ruolo di Data Scientist giorno per giorno. Molte degli articoli esistenti là fuori – sebbene eccellenti – risalgono al periodo tra il 2012 e il 2020, e in un campo che evolve così velocemente come la Data Science, questi possono diventare rapidamente obsoleti.
In questo articolo, il mio obiettivo è di tirare indietro i copriletto proverbiali e dare un’opinione personale sulla vita come Data Scientist nel 2023.
- PatchTST una svolta nella previsione delle serie temporali.
- Data Science Retrospettiva Test delle prime versioni di YOLO
- Come creare bei grafici di distribuzione dell’età con Seaborn e Matplotlib (inclusa l’animazione)
Tramite le mie esperienze di lavoro in 3 diverse squadre di Data Science, cercherò di aiutare tre tipi di persone:
- Aspiranti Data Scientist: darò una visione realistica di ciò che il lavoro comporta, in modo che possiate prendere una decisione più informata sul fatto che sia quello che fa per voi e su quali competenze lavorare
- Data Scientist: suscitare nuove idee per cose da provare nella vostra squadra e/o darvi un modo per rispondere alla domanda “Quindi, cosa fai esattamente?”
- Persone che lavorano con (o vogliono assumere) Data Scientist: conoscere cosa diamine facciamo effettivamente (e, forse ancora più importante, cosa non facciamo)
Non sono solo auto a guida autonoma, ChatGPT e Deep Learning
Il Responsabile di AI di una grande azienda tecnologica mi ha detto una volta che il più grande equivoco che incontra sui Data Scientist è che stiamo sempre costruendo modelli di deep learning e facendo “robaccia AI fantasiosa”.
Ora non fraintendetemi – la Data Science può diventare molto fantasiosa, ma essa abbraccia molto di più dell’Intelligenza Artificiale e dei suoi casi d’uso vistosi. Equiparare la Data Science all’AI è un po’ come presumere che gli avvocati passino tutti i loro giorni a gridare “Obiezione!” in tribunale; c’è molto di più che accade dietro le quinte.
C’è di più che “robaccia AI fantasiosa”
Una delle mie descrizioni preferite della Data Science proviene da Jacqueline Nolis, una Principale Data Scientist con sede a Seattle. Nolis divide la Data Science in tre flussi:
- Business Intelligence – “prendere i dati che l’azienda ha e metterli davanti alle persone giuste”
- Decision Science – “prendere i dati e usarli per aiutare un’azienda a prendere una decisione”
- Machine Learning – che lei descrive come “prendere i modelli di Data Science e metterli continuamente in produzione,” anche se probabilmente prenderei una visione più ampia e includerei la realizzazione effettiva di modelli di ML.
Diverse aziende daranno maggiore enfasi a diversi flussi, e addirittura all’interno di questi flussi i metodi e gli obiettivi varieranno. Ad esempio:
- Se sei un Data Scientist che lavora in Decision Science, le tue attività quotidiane potrebbero includere qualsiasi cosa, dall’esecuzione di test A/B alla risoluzione di problemi di programmazione lineare.
- Se sei un Data Scientist che passa la maggior parte del suo tempo a costruire modelli di ML, essi potrebbero essere orientati al prodotto (ad esempio, la costruzione di un algoritmo di raccomandazione che verrà incorporato in un’app) o orientati alle operazioni commerciali (ad esempio, la costruzione di un modello di prezzo o di previsione, utilizzato per migliorare le operazioni commerciali nel backend dell’azienda).
Personalmente, una delle cose che trovo più divertenti della Data Science è poter immergere le mie dita in tutti e tre questi settori, e quindi nei ruoli di Data Science che ho svolto, ho sempre cercato di assicurarmi che ci sia molta varietà. È un buon modo per cercare di costruire la mentalità “giacchino di tutti i mestieri, maestro di uno” che ho precedentemente proposto come modo di inquadrare la tua carriera come Data Scientist.
C’è molto di più in PowerPoint di quanto si possa pensare (o voler)
Ah, PowerPoint. Se pensavi che i Data Scientist se ne fossero salvati, quanto eri sbagliato.
Creare e presentare diapositive è una parte fondamentale del ruolo di qualsiasi Data Scientist perché i tuoi modelli non andranno da nessuna parte se non sei in grado di comunicare il loro valore. Come dice Andrew Young:
Nel corso degli anni, ho visto molti data scientist con un dottorato di ricerca spendere settimane o mesi per costruire dei pipeline di machine learning altamente efficaci che (teoricamente) forniranno valore nel mondo reale. Sfortunatamente, questi frutti del lavoro possono morire sulla vite se non riescono a comunicare efficacemente il valore del loro lavoro
Nel mio team, poniamo molta enfasi sulla comunicazione con le parti interessate e quindi PowerPoint tende ad avere un ruolo importante nel nostro lavoro quotidiano.
Per ogni progetto, costruiamo una presentazione master a cui diversi membri del team possono contribuire, e quindi selezioniamo le diapositive pertinenti da questa presentazione ogni volta che è il momento di presentare alle parti interessate. Dove necessario, cerchiamo di creare più versioni delle diapositive chiave in modo da poter personalizzare i nostri messaggi per diverse audienc, che hanno diversi livelli di competenze tecniche.
Se devo essere onesto, in realtà non mi dispiace passare del tempo in PowerPoint (per favore non cancellatemi), perché trovo che creare le diapositive sia un ottimo modo per distillare le tue idee chiave. Onestamente, mi aiuta a ricordare le grandi domande di fondo come: (1) quale problema sto risolvendo, (2) come si confronta la mia soluzione con quella di base, e (3) quali sono le dipendenze e le tempistiche.
Dati puliti? Tieni la mia birra
Comunemente si dice che il data science sia l’80% di preparazione dei dati…
… e il 20% di lamentele sulla preparazione dei dati.
E non sto parlando solo di aziende in cui il Data Science è la “cosa nuova”.
Anche in aziende consolidate con set di dati consolidati, la preparazione e la convalida dei dati possono richiedere una quantità sostanziale di tempo. Almeno, è probabile che tu scopra che i set di dati sono (1) archiviati su diverse piattaforme, (2) pubblicati con diverse cadenze, o (3) necessitano di una notevole manipolazione per essere nel formato corretto. Anche una volta che i tuoi modelli sono in produzione, devi continuamente controllare che i tuoi set di dati non si stiano spostando, rompendo o perdendo informazioni.
E non mi parlare nemmeno dei dati di input dell’utente.
In uno dei miei vecchi lavori, avevamo un modulo online in cui gli utenti dovevano inserire il loro indirizzo, e i nostri utenti hanno utilizzato 95 modi diversi per scrivere “Barcellona”: sto parlando di tutto, dal “barcalona” a “BARÇA” e “Barna”.
95 modi diversi per scrivere “Barcellona”
Morale della favola: non usare campi di testo libero a meno che tu non voglia passare le prossime settimane a piangere sulla documentazione di regex.
Stai sempre imparando
Una delle cose che amo di più del Data Science è il fatto che comporta un apprendimento continuo.
Per me, ho sempre temuto l’idea di rimanere bloccato in un lavoro in cui faccio sempre le stesse cose, e sono grato di poter dire che il Data Science non è una di quelle carriere. Come Data Scientist, scoprirai che non esiste un progetto “standard”. Tutti richiedono un approccio leggermente personalizzato, quindi dovrai sempre adattare le tue conoscenze esistenti e imparare cose nuove.
E non sto parlando solo di apprendimento “formale” come partecipare a conferenze o fare corsi online.
Più probabilmente, trascorrerai una quantità sostanziale dei tuoi giorni facendo “micro-apprendimento” leggendo la documentazione di codifica, gli articoli di Towards Data Science e le risposte di Stack Overflow. Se sei interessato a come affronto il compito dell’apprendimento continuo e di stare al passo, potresti essere interessato a leggere uno dei miei recenti articoli in cui parlo di questo in modo più approfondito:
Come rimango aggiornato sulle ultime tendenze dell’AI come data scientist a tempo pieno
No, non chiedo solo a ChatGPT di dirmelo
towardsdatascience.com
È uno sport di squadra
I data scientist non esistono in una bolla.
Siamo incorporati in squadre e, per lavorare efficacemente, è necessario saper lavorare insieme. Mi piace molto il modo in cui Megan Lieu lo mette:
La più grande delusione che ho avuto quando sono diventato un data scientist è stata imparare che non è solo lavoro in solitaria tutto il giorno.
“Non vedo l’ora di non parlare con nessuno, costruire modelli e fare solo cose tecniche di data science da solo tutto il tempo!”
Molto al mio orrore introverso, ho capito che non solo dovevo collaborare con, ma anche parlare con i business e gli stakeholder esterni ogni giorno
Anche se me la sento un po’ meno di Megan (sono più un estroverso per natura), anche io sono rimasto sorpreso all’inizio da quanto spesso il ruolo possa essere basato sul lavoro di squadra. Nel mio ruolo, “collaborazione” significa cose come: avere riunioni quotidiane per discutere compiti e ostacoli, fare sessioni di programmazione in coppia regolari per debuggare e ottimizzare il codice e avere discussioni ben equilibrate (leggasi: litigi) sui meriti di diversi approcci tecnici.
Tutto sommato, penso di trascorrere circa il 50-70% del mio tempo lavorando da solo e il resto del tempo facendo lavori in coppia o di gruppo, anche se il rapporto esatto dipenderà molto dalla tua azienda e dal tuo livello di anzianità.
Ed eccolo qui!
Grazie per aver letto questa piccola visione della mia vita da data scientist.
Spero che ti sia stato utile e non esitare a contattarmi se vuoi una chiacchierata 🙂
Un’altra cosa – potresti essere nel mio 1%?
Meno dell’1% dei miei lettori su Nisoo clicca il mio pulsante “Segui”, quindi significa davvero molto quando lo fai, che sia qui su Nisoo, Twitter o LinkedIn.
Se vuoi avere accesso illimitato a tutte le mie storie (e al resto di Nisoo.com), puoi registrarti tramite il mio link di riferimento per $5 al mese. Non aggiunge alcun costo extra rispetto alla registrazione tramite la pagina di registrazione generale e aiuta a supportare la mia scrittura poiché ricevo una piccola commissione.