Come diventare un data scientist senza una formazione tecnica consigli e strategie

Consigli e strategie per diventare un data scientist senza formazione tecnica

Guida

Quindi, vuoi diventare un data scientist? Devi padroneggiare queste competenze

Cosa si può fare con la scienza dei dati - Foto di Possessed Photography su Unsplash

Questa storia sarà un po’ diversa da quello che di solito pubblico. Non sarà un’introduzione a strumenti e tecniche specifici, né un tutorial o un caso pratico.

Questa volta voglio rispondere a una domanda che mi è stata posta su LinkedIn da quando ho iniziato a pubblicare su Nisoo:

come fa una persona senza una formazione tecnica a diventare un data scientist?

Non sono un esperto e la mia esperienza nel campo è piuttosto breve, ma mi sento in grado di aiutare e discutere l’argomento. Tutto sarà ovviamente basato sulla mia opinione e non ci sono basi scientifiche a sostegno.

Avviso: attualmente lavoro come analista dei dati, ma ho studiato e mi sono dedicato alla scienza dei dati per 5 anni. Potresti dire che sono un data scientist nel tempo libero che si mantiene facendo analisi dei dati.

Esistono percorsi diversi che una persona potrebbe intraprendere per diventare un data scientist e alla fine dipende dalle tue preferenze e necessità.

Quindi non discuterò di percorsi qui. Ti piace l’università? Iscriviti subito. Preferisci l’autoapprendimento? È quello che ho fatto per tanti anni. Preferisci corsi brevi o bootcamp? Anche quelli sono ottimi.

Ogni opzione funziona, non sono qui per dirti cosa scegliere.

Ciò che posso fare, però, è condividere le cose tecniche e i dettagli che mi trovo ad utilizzare ogni giorno. Gli strumenti e i linguaggi che sicuramente hai bisogno di padroneggiare per diventare un data scientist.

E saranno tutti piuttosto basilari. Infatti, non devi nemmeno leggere questo post. Vai su LinkedIn, trova un’offerta di lavoro per un ruolo di data scientist e controlla i requisiti. Capirai le basi di cui tutti abbiamo bisogno.

Vedrai che parlerò di alcuni argomenti chiave che devi padroneggiare e cercherò di fornire il mio punto di vista personale con esempi personali su come ogni parte di questi argomenti sia stata rilevante per i miei progetti personali.

Per essere più specifici, mi senti parlare di Netty e Bazar, i due nomi che ho dato a due dei miei progetti. Continua a leggere per saperne di più su di loro!

Tuttavia, la scienza dei dati è un termine molto ampio. È come l’informatica. Coinvolge molte cose e può differire molto da una specializzazione all’altra. Quindi vorrei analizzare brevemente il ruolo della scienza dei dati in alcuni dei suoi tipi diversi.

Tipi di Data Scientist

Questo può essere alquanto controverso. Non esiste una vera lista di tipi di data scientist; ognuno tende a crearne una propria. Ne ho trovata una su Internet che funziona bene per quello che voglio condividere, quindi è quella che userò [1].

Il sito web mostra 15 tipi diversi, molto ben spiegati, e le relative responsabilità.

Dagli un’occhiata se vuoi vederli, anche se alcune persone potrebbero non considerare alcuni dei ruoli lì elencati come veri data scientist – ruoli come analista dei dati, ingegnere dei dati, analista aziendale

Alla fine, non sembra esserci un consenso chiaro su cosa sia un data scientist!

Ma penso che l’elenco sia effettivamente utile per far vedere alle persone di cosa si tratta ogni ruolo. Dovrebbe aiutare i principianti a trovare i loro obiettivi e a muoversi in quella direzione.

Qualunque cosa tu scelga, i requisiti principali sono sempre gli stessi. Vediamoli.

1. Padronanza di Python (o R)

Python è il linguaggio più utilizzato per la scienza dei dati. Questa è la ragione principale per cui devi padroneggiarlo.

Potresti scegliere altri linguaggi come R o Rust – quest’ultimo sta diventando molto famoso ultimamente – ma sceglierei di impararli come seconda lingua.

Come quando abbiamo una lingua madre che usiamo tutti i giorni ma impariamo una seconda lingua per aumentare le nostre opzioni e il nostro set di strumenti. Rendi Python la tua lingua madre e poi completa le tue competenze con R, Rust o qualsiasi altra opzione che ti interessa.

Basandomi sulla mia esperienza personale, questo è il maggior vantaggio nella lista odierna. Python è sempre il linguaggio principale che ho utilizzato sia in progetti personali che professionalmente.

Ad esempio, una volta ho costruito un progetto di data science che ho chiamato Netty – di cui sono molto orgoglioso – che consisteva in una rete neurale profonda con layer convoluzionali e altre cose interessanti che funzionava davvero bene.

Tutto quello che Netty faceva era prevedere il vincitore di una partita di NBA data. Non per vantarmi, ma l’ho testato quotidianamente per due stagioni intere e ha funzionato molto bene.

Non avrebbe avuto senso costruire Netty utilizzando un linguaggio diverso da Python. Sarebbe stato altrimenti più difficile, meno efficiente in termini di tempo investito e i risultati sarebbero probabilmente stati peggiori.

Quindi ora non ignorarmi. Vai avanti e impara Python, il rendimento che darà sarà inestimabile.

Tuttavia, se odii Python o semplicemente non vuoi seguire quella strada, ti suggerirei R. È un linguaggio eccezionalmente utile per la data science e l’analisi dei dati, quindi è anche un’ottima opzione.

Inoltre, nella maggior parte delle offerte di lavoro richiedono Python O R, quindi padroneggiare uno dei due probabilmente sarà sufficiente.

2. Una volta che padroni del linguaggio, padrona le sue librerie

Sapere come fare cicli for e istruzioni condizionali è di base, ma questo non ti farà distinguere.

Devi padroneggiare le librerie e i pacchetti che rendono Python e R così utili per i compiti legati ai dati.

Focalizzandoci su Python, perché è quello che di solito consiglio, ecco le cose indispensabili:

  • Pandas – Uno strumento potente per l’analisi e la manipolazione dei dati.
  • NumPy – Il tuo amico per qualsiasi calcolo scientifico che desideri eseguire.
  • Matplotlib o Seaborn – Vorrai visualizzare i dati e questi due ti permettono di farlo.
  • Keras, TensorFlow o Scikit-learn – Questi ti permetteranno di costruire modelli di AI e ML.

Oltre a questi, potremmo anche parlare di Collections, Statistics, Plotly, Dash, SciPy… Ma non direi che sono indispensabili o, almeno, importanti quanto le precedenti.

Se dovessi ricominciare da capo, mi concentrerei prima su Pandas, NumPy e Seaborn. Una volta che avessi dimestichezza con questi e potessi manipolare i dati, passerei a costruire alcuni modelli con Keras, TensorFlow o Scikit-learn.

Come sicuramente hai già sentito dire, si stima che gli scienziati dei dati trascorrano l’80% del loro tempo a recuperare, pulire e manipolare i dati, mentre il restante 20% è dedicato alla fase di modellazione.

Ecco perché, secondo me, Pandas è fondamentale. Lo uso quotidianamente da alcuni anni e la sua versatilità, combinata con NumPy, mi ha aiutato a sviluppare competenze straordinarie e progetti avanzati.

Continuando con Netty, ricordi che ho detto che consisteva in una rete neurale. Come pensi che sia stato possibile? Tutta la pulizia e la manipolazione dei dati è stata fatta grazie a Pandas e NumPy; ovviamente avevo bisogno di visualizzazioni, quindi ho combinato Matplotlib e Seaborn. E naturalmente, la parte interessante, il modello di AI, è stato principalmente costruito con Keras ma anche con TensorFlow.

Proprio come ha senso usare Python e nessun altro linguaggio, lo stesso vale per queste librerie. È come se fossero tutte fornite insieme.

3. Padroneggia anche SQL

Anche se SQL non ti aiuterà a costruire modelli e sistemi predittivi, imparare come eseguire query e recuperare dati dai database è fondamentale.

Ho detto prima che la maggior parte del mio tempo di codifica è in Python… Il resto è in SQL.

Se sia professionalmente che in progetti personali, se i dati sono memorizzati nei database – e di solito lo sono – dovrai sapere come recuperare i dati esatti di cui hai bisogno.

Non sarei stato assunto nel mio attuale lavoro se non avessi conosciuto SQL. E onestamente, non potrei lavorare lì se non lo padroneggiasse.

Quindi scegli un qualsiasi sistema di gestione di database relazionali (RDBMS) che ti piace e impara a eseguire semplici query. Non andrei troppo in profondità con SQL, credo che le istruzioni di base siano più che sufficienti.

Impara a fare i join, i group by, le funzioni di finestra… Diventa fluent nell’eseguirli.

Se vuoi qualche raccomandazione sui RDBMS, adoro DuckDB [2] – in parte perché è potente ed è incredibilmente integrato in Python. Dai un’occhiata a un articolo che ho pubblicato che lo introduce e lo analizza:

Dimentica SQLite, Usa DuckDB al suo Posto – E Ringraziami Più Tardi

Introduzione a DuckDB e la sua integrazione con Python

towardsdatascience.com

Oltre a DuckDB, altre opzioni che considererei sono SQLite, MySQL o PostgreSQL…

Nel mio portfolio personale in cui venivo assunto, c’era un progetto chiamato Bazar. Questo progetto memorizzava i dati di Amazon in un database DuckDB locale e lo usavo per tenere traccia dei prezzi dei prodotti di mio interesse e vedere quando scendevano.

Questo progetto si basava su molte query SQL. Non complesse, in realtà molto semplici, ma erano fondamentali. Dovevo recuperare i prezzi dei prodotti, gli URL… tutto frequentemente per confrontarli con i dati in tempo reale.

4. Non Avere Paura della Matematica

Personalmente amo la matematica. Sono fortunato che il mio interesse per essa sia naturale.

Ma altri non hanno questa fortuna.

Tuttavia, la data science coinvolge molta matematica. Che sia direttamente o indirettamente. Padroneggiare la matematica è fondamentale per capire ciò che stai facendo e prendere decisioni informate.

Focalizzati soprattutto sul calcolo, l’algebra, la statistica e la probabilità. Più facile a dirsi che a farsi, lo so.

Ad esempio, la discesa del gradiente è l’algoritmo più utilizzato quando si tratta dell’addestramento di reti neurali – sì, l’ho usato anche su Netty. La discesa del gradiente è fondamentalmente il processo di utilizzare il gradiente (derivate) per regolare i parametri che compongono il modello.

Un altro esempio che ho usato io stesso in alcuni progetti, soprattutto in Netty, è nella fase di esplorazione dell’analisi. Lì devono essere applicate molte statistiche: distribuzioni, medie, percentili, deviazioni… Devi capirle.

5. Migliora le Tue Visualizzazioni

Dipenderà dal tuo ruolo, ma come data scientist, probabilmente avrai bisogno di condividere le intuizioni con qualcuno del tuo team o con gli stakeholder. Le visualizzazioni saranno utili, quindi sarebbe un grande vantaggio se le padroneggiassi.

Niente di straordinario qui, puoi scegliere software specializzati come PowerBI o Tableau o semplicemente continuare a usare Python e creare straordinari cruscotti interattivi con Plotly e Dash.

Presto creerò un post più approfondito su Dash, ma l’ho introdotto brevemente in un articolo precedente insieme ad altre librerie. Penso che potrebbe esserti utile se sei interessato:

Creare Visualizzazioni Interattive dei Dati con Python – L’Arte della Narrazione

Seaborn, Bokeh, Plotly e Dash per comunicare in modo effettivo insights dati

towardsdatascience.com

La cosa è che, come data scientist o analista, dobbiamo comunicare le nostre scoperte. È successo spesso che una semplice visualizzazione sia stata sufficiente per far capire agli stakeholder di cosa stavo parlando.

Questo è il potere magico delle visualizzazioni: se sono straordinarie, poche parole sono necessarie.

Ma non farlo solo per gli altri, fallo anche per te stesso. Di nuovo, con Netty, ho smanettato con un sacco di numeri. Si poteva davvero perdersi facilmente e non capire cosa si stava vedendo.

Con semplici visualizzazioni tutti i dati avevano senso. Potevo vedere come l’accuratezza del modello e il suo errore evolvessero nel tempo durante le fasi di addestramento. Non solo quello, ma potevo anche vedere come i vincitori erano distribuiti (~60% delle volte il vincitore era la squadra di casa) e molti nuovi dati che erano estremamente preziosi.

6. Sii Curioso e Proattivo

Dopo aver padroneggiato Python, le sue librerie, SQL, la matematica e alcuni strumenti di visualizzazione, non puoi permetterti di fermarti lì. Le cose interessanti iniziano dopo tutto questo apprendimento di base.

Curiosità, proattività, creatività… Non sono strumenti tecnici ma sono altrettanto importanti.

Dobbiamo coltivare queste competenze e imparare nuove. Creare progetti personali che ci interessano e utilizzare questi strumenti per creare un portfolio straordinario.

Questo è ciò che farà davvero risaltare il tuo profilo rispetto agli altri. Mettere le cose sul tuo CV non è sufficiente. Devi mostrare ciò che hai fatto.

Fornire prove.

La parte positiva è che facendo effettivamente questi progetti avrai la possibilità di imparare molto divertendoti.

E ciò che è più importante: verrai assunto.

Guardami, ad esempio. Un universitario che ha deciso di dedicare il suo tempo ad imparare molto e a creare progetti personali che costruiscono un portfolio di livello base.

Questo portfolio mi ha portato dove sono oggi, in un’azienda straordinaria con straordinari vantaggi e una straordinaria cultura.

Conclusioni

La scienza dei dati è un campo straordinario ed è perfetto se sei interessato ai dati, alla matematica e alle previsioni.

Diventare un data scientist richiede tempo e impegno, ma è semplice. Ci sono molteplici percorsi possibili e la risposta su quale sia il migliore alla fine dipende dalle preferenze personali.

Tuttavia, le competenze e gli strumenti più basilari richiesti sono abbastanza chiari: matematica, utilizzo di Python per costruire modelli, manipolare e visualizzare i dati, e giocare con i database.

Se sei ancora interessato, allora vai avanti e unisciti a noi!

Grazie per aver letto il post! Spero davvero che ti sia piaciuto e che tu lo abbia trovato interessante. Seguimi e iscriviti alla mia mailing list per contenuti simili a questo, mi aiuta molto! @polmarin

Se vuoi supportarmi ulteriormente, considera l’iscrizione alla Membership di Nisoo tramite il link che trovi qui sotto: non ti costerà nulla in più ma mi aiuterà in questo processo.

Leggi ogni storia di Pol Marin (e migliaia di altri scrittori su Nisoo). La tua quota di iscrizione supporta direttamente Pol…

Nisoo.com

Risorse

[1] 15 Diverse Tipologie di Data Scientist [Con Responsabilità] – Knowledge Hut

[2] DuckDB