21 Schede di Trucchi Necessarie per i Colloqui di Data Science Sblocca il Tuo Percorso verso il Successo

21 Trucchi per Colloqui di Data Science Sblocca il Tuo Successo

Questo articolo ha ricercato e presenta le migliori schede di riferimento per la scienza dei dati provenienti da tutto internet, così non dovrai farlo tu stesso.

Essendo la scienza dei dati un campo così ampio e in continua evoluzione, è davvero impossibile avere tutte le conoscenze in testa. Soprattutto se alcune di queste conoscenze le usi solo occasionalmente. Inoltre, se sei un principiante in un certo campo, dovrai aggiornare molto spesso ciò che hai imparato fino a quando non diventa conoscenza attuale al crocevia tra teoria e pratica.

Avere qualcosa su cui poter guardare e ottenere le informazioni di cui hai bisogno in un colpo d’occhio sarebbe abbastanza utile, giusto? Quel “qualcosa” si chiama cheat sheet. E non ha nulla a che fare con l’imbroglio. Sono utilizzati per l’apprendimento e la revisione di ciò che già si conosce.

A causa della loro intenzione di essere (relativamente) concisi e di alto livello, avere un’unica cheat sheet per l’intera scienza dei dati batterebbe il suo scopo. Anche se la creazione di una tale cheat sheet sarebbe possibile. A causa di ciò, dovrai utilizzare diverse cheat sheet per i vari campi della scienza dei dati.

Ho cercato di limitare questo alle cheat sheet che coprono i concetti di cui un data scientist non può fare a meno. Puoi leggerlo come una cheat sheet sulle cheat sheet che parlano di:

  • Linguaggi di programmazione
    • SQL
    • Python
    • R
  • Algoritmi e modelli
  • Strutture dati
  • Visualizzazione dei dati
  • Probabilità e statistica
  • Manipolazione dei dati

Linguaggi di programmazione

Conoscere i linguaggi di programmazione è alla base di tutte le altre parti della scienza dei dati. Soprattutto popolare nella comunità della scienza dei dati è la santissima trinità dei linguaggi di programmazione:

  • SQL
  • Python
  • R

SQL

Il linguaggio appositamente progettato per interrogare database, SQL è un campione quando si tratta di estrazione e manipolazione dei dati.

Cheat sheet: SQL Basics Cheat Sheet

Link: https://learnsql.com/blog/sql-basics-cheat-sheet/

Cosa ottieni: Questa cheat sheet si concentra sul consentirti di scrivere query SQL funzionali fin dall’inizio. Per farlo, dovrai essere familiarizzato con alcuni concetti. Questi sono l’interrogazione di una singola tabella, il filtraggio dei dati e l’interrogazione di più tabelle utilizzando gli JOIN. Sono anche coperte le funzioni di aggregazione, le subquery e gli operatori di set (UNION, INTERSECT, EXCEPT).

Oltre a una breve spiegazione di ogni concetto, la cheat sheet ti fornisce anche una query basata sui dati di esempio per mostrarti come funziona tutto in pratica.

La cheat sheet è anche scaricabile in formato PDF o PNG, rendendola pratica per la stampa e per averla a portata di mano.

Cheat sheet: The Essential SQL Commands Cheat Sheet for Beginners

Link: https://itechbrand.com/the-essential-sql-commands-cheat-sheet-for-beginners/

Cosa ottieni: Non ci sono esempi di codice e di dati come nella precedente cheat sheet. Questo elenca semplicemente i comandi in SQL di cui tutti hanno bisogno. È ottimo quando vuoi ricordare cosa fa una determinata parola chiave. Copre anche argomenti aggiuntivi, come la creazione e la modifica di tabelle, vincoli, dati, trigger, viste e espressioni di tabella comuni (CTE).

Cheat sheet: SQL Cheat Sheet – Concetti tecnici per il colloquio di lavoro

Link: https://www.stratascratch.com/blog/sql-cheat-sheet-technical-concepts-for-the-job-interview/

Cosa ottieni: Concentrandosi sui concetti SQL più critici per fare bene in un colloquio di lavoro, questa cheat sheet copre JOIN, funzioni di data e ora, funzioni di aggregazione, funzioni di finestra e operatori di set.

Ogni argomento tecnico e subargomento è spiegato brevemente verbalmente e utilizzando una rappresentazione grafica facile da capire. Inoltre, c’è una domanda di colloquio e il codice di soluzione che riguarda l’argomento in questione. Il codice è mostrato nel widget, quindi puoi giocare con esso, rendendolo una cheat sheet interattiva.

Python

Python è, per una ragione, uno dei linguaggi di programmazione più comunemente utilizzati nella scienza dei dati. Eccelle in tutte le aree richieste. Fa davvero tutto, dall’estrazione e manipolazione dei dati o l’analisi statistica e la visualizzazione dei dati all’apprendimento automatico, alla distribuzione del modello e all’automazione.

Cheat sheet: Python Cheat Sheet

Link: https://websitesetup.org/python-cheat-sheet/

Cosa ottieni: Questo foglio di riferimento molto completo ma molto chiaro è perfetto per chiunque voglia avere una base per iniziare a lavorare in Python. Spiega i principali tipi di dati in Python, inclusa la creazione e l’archiviazione di stringhe e l’esecuzione di operazioni matematiche sui dati. Imparerai anche le funzioni incorporate, la creazione di funzioni, le liste, le tuple e i dizionari.

Il foglio di riferimento prosegue dando una panoramica delle istruzioni condizionali, dei cicli Python, delle classi e persino del trattamento degli errori Python.

Puoi scaricare il foglio di riferimento in formato PDF o infographic (PNG).

Cheat sheet: Python Cheat Sheet

Link: https://programmingwithmosh.com/wp-content/uploads/2019/02/Python-Cheat-Sheet.pdf

Cosa ottieni: Un foglio di riferimento piuttosto simile a quello sopra. Copre principalmente gli stessi argomenti ma con meno dettagli. Le spiegazioni sono eccellenti e perfette per i principianti che cercano di comprendere le basi di Python.

Il foglio di riferimento è scaricabile in formato PDF.

Cheat sheet: Comprehensive Python Cheatsheet

Link: https://github.com/gto76/python-cheatsheet

Cosa ottieni: Mentre i principianti possono utilizzare questo foglio di riferimento, copre molti più argomenti di quelli necessari a livello di base. Qui non si parla molto. L’autore passa attraverso gli argomenti, elenca le parole chiave e le spiega brevemente. Fornisce anche il codice di esempio e ciò che restituisce.

Gli argomenti trattati sono raccolte, tipi, sintassi, sistema, dati, avanzati e librerie. Ogni argomento è poi diviso in sottotemi che rendono questo foglio di riferimento probabilmente l’unico necessario per la maggior parte degli utenti di Python.

R

Il linguaggio di programmazione R è un po’ meno flessibile di Python, quindi non è adatto per il deployment del modello. È creato per l’analisi statistica e la visualizzazione dei dati. Non è il suo unico scopo perché è anche ampiamente utilizzato per l’estrazione e la manipolazione dei dati, il machine learning e l’automazione.

Cheat sheet: RStudio Cheatsheets

Link: https://www.rstudio.com/resources/cheatsheets/

Cosa ottieni: Queste risorse sono probabilmente le uniche di cui avrai bisogno quando si tratta di fogli di riferimento R. Ci sono un numero esteso di fogli di riferimento e argomenti trattati. Gli utenti hanno contribuito con i fogli di riferimento che coprono R di base e avanzati.

Il foglio di riferimento di Base R parla di vettori, programmazione, tipi di dati, funzioni matematiche, statistica e altri argomenti.

Il foglio di riferimento R avanzato sarà utile per coloro interessati agli ambienti, alle strutture dati, ai sistemi orientati agli oggetti, alle funzioni, al subsetting, al debugging, alla gestione delle condizioni e alla programmazione difensiva.

Puoi trovare molti altri fogli di riferimento sul sito di origine dedicato al particolare argomento R. Ad esempio, la gestione delle date e degli orari, le stringhe, la trasformazione dei dati, la pulizia, la visualizzazione, il deep learning, ecc.

Strutture dati

I data scientist devono essere familiari con le strutture dati come modo per organizzare e memorizzare i dati. L’opportunità è che non userai sempre tutte le possibili strutture dati. Quando arriva il momento di usare una struttura dati che non hai usato (molto spesso), i fogli di riferimento possono fornirti un’idea generale sulla struttura dati in questione.

Cheat sheet: Data Structures Reference

Link: https://www.interviewcake.com/data-structures-reference

Cosa ottieni: Elenca tutte le strutture dati con brevi definizioni e rappresentazione visiva, che è eccellente per un rapido riferimento. Se vuoi maggiori dettagli su ogni struttura dati, puoi cliccare su di essa e ottenere informazioni dettagliate, come i punti di forza e debolezza di ciascuna, come funziona l’inserimento e l’eliminazione e una spiegazione delle sue caratteristiche specifiche.

Cheat sheet: An Executable Data Structures Cheat Sheet for Interviews

Link: https://algodaily.com/lessons/an-executable-data-structures-cheat-sheet

Cosa ottieni: Anche questo ti fornisce spiegazioni di tutte le strutture dati, i loro pro e contro e gli utilizzi notevoli. Il foglio di riferimento fornisce risorse aggiuntive per apprendere ulteriormente su ogni struttura dati.

Inoltre, ogni struttura dati ha un codice di esempio in JavaScript, Python e Java che puoi eseguire e vedere cosa restituisce. C’è anche un video che ti guida attraverso l’intera scheda dati e ti aiuta a comprenderla meglio.

Manipolazione dei dati

La manipolazione, l’elaborazione o la pulizia dei dati è quando trasformi i dati grezzi in un formato utilizzabile per ulteriori analisi e elaborazioni. Nella scienza dei dati, questo viene solitamente fatto tramite Python e la sua libreria pandas.

Foglio di trucchi: Foglio di trucchi di Pandas per la scienza dei dati

Link: https://datascientyst.com/pandas-cheat-sheet-for-data-science/

Cosa ottieni: Perfetto per i principianti, questo foglio di trucchi ti mostra i codici per i comandi principali in pandas e spiega ciò che restituisce ogni codice. Gli argomenti trattati sono la configurazione di pandas, le strutture dati, l’importazione ed esportazione dei dati, l’ispezione e la selezione. Imparerai anche come aggiungere ed eliminare righe/colonne, ordinare, filtrare, raggruppare, convertire, unire e concatenare dati e applicare funzioni. Ogni argomento è accompagnato da una rappresentazione grafica facile da capire.

Foglio di trucchi: Foglio di trucchi di Pandas

Link: https://geekyhumans.com/pandas-cheat-sheet/#Making-changes-to-the-data

Cosa ottieni: Copre generalmente tutti gli argomenti del precedente foglio di trucchi. La differenza è che l’esplicazione è fatta principalmente mostrandoti il codice e il suo output anziché solo spiegarlo.

Foglio di trucchi: Foglio di trucchi per la manipolazione dei dati con pandas

Link: https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

Cosa ottieni: Un foglio di trucchi dettagliato dedicato esclusivamente alla pulizia dei dati. Copre la creazione di DataFrame, la concatenazione di metodi, la ridimensione dei dati, la gestione di righe e colonne, l’utilizzo di query, il riassunto e il raggruppamento dei dati, la gestione dei dati mancanti, la creazione di nuove colonne, la combinazione di set di dati, l’utilizzo di finestre e la rappresentazione grafica. Ogni argomento è spiegato visivamente e brevemente descritto, e ogni parola chiave di pandas è mostrata utilizzando il codice e il suo output.

Visualizzazione dei dati

La visualizzazione dei dati è una parte importante del lavoro di un data scientist. In un certo senso, è il momento in cui qualcosa di comprensibile solo per altri data scientist lo puoi rendere comprensibile anche per le persone “ordinarie”. Può essere una visualizzazione dell’analisi dei dati o delle informazioni sui modelli. In entrambi i casi, il foglio di trucchi potrebbe tornare utile.

Foglio di trucchi: Foglio di trucchi per la visualizzazione dei dati

Link: http://www.biosci.global/customer-stories-en/data-visualization-cheat-sheet/

Cosa ottieni: È una buona panoramica dei grafici utilizzati nella visualizzazione dei dati. Oltre a ogni tipo di grafico, c’è una breve spiegazione di ciò che rappresenta e l’immagine che lo mostra, in modo da poter facilmente visualizzare l’aspetto di ogni grafico.

C’è anche una panoramica visiva dei criteri per la scelta del grafico giusto per la tua visualizzazione.

Foglio di trucchi: Foglio di trucchi per la visualizzazione dei dati

Link: https://www.kaggle.com/getting-started/160583

Cosa ottieni: Non ci sono spiegazioni dei grafici. Ma tutti i grafici sono rappresentati visivamente qui e divisi in sezioni in base al loro scopo nella visualizzazione dei dati. Perfetto per i principianti e chiunque voglia verificare rapidamente se ha scelto il grafico corretto e se ci sono opzioni migliori.

Foglio di trucchi: Fogli di trucchi per la visualizzazione dei dati

Link: https://medium.com/responsibleml/data-visualization-cheat-sheets-1c12ba8a7671

Cosa ottieni: Qui ci sono diversi fogli di trucchi che ruotano attorno all’argomento di fare un buon grafico. Non si parla solo della scelta del grafico giusto. I fogli di trucchi vanno più in dettaglio, dando consigli, i dos e i don’ts sulla presentazione dei dati su mappe, la scelta dei colori (inclusi quelli per le persone con problemi di vista), la resa del grafico più leggibile, la scelta degli assi del grafico e la rappresentazione della linea temporale. Tutti i fogli di trucchi sono scaricabili in PDF.

Statistica e Probabilità

Avere una vasta conoscenza delle statistiche e, più specificatamente, della probabilità è un must per qualsiasi data scientist. Lo usano quasi in ogni parte del loro lavoro: dall’analisi dei dati alla costruzione, test e valutazione del modello. Essendo la statistica una disciplina estesa, è probabile che userai solo alcune parti nel tuo lavoro. Per quegli argomenti di statistica che sono nuovi per te o che non usi spesso, avrai bisogno di una buona cheat sheet per aiutarti.

Cheat sheet: Una cheat sheet completa di statistica per i colloqui di Data Science

Link: https://www.stratascratch.com/blog/a-comprehensive-statistics-cheat-sheet-for-data-science-interviews/

Cosa otterrai: Questa cheat sheet copre tutti gli argomenti di statistica di cui la maggior parte dei data scientist avrà bisogno. Si tratta di intervalli di confidenza, test di ipotesi, statistiche Z e statistiche T, test A/B, regressione lineare, regole di probabilità, teorema di Bayes, e combinazioni e permutazioni. Ci sono spiegazioni dettagliate di tutti questi concetti, con formule, rappresentazioni grafiche ed esempi.

Cheat sheet: La cheat sheet di statistica più completa

Link: https://terenceshin.medium.com/week-2-52-stats-cheat-sheet-ae38a2e5cdc6

Cosa otterrai: In genere copre uno o due argomenti rispetto alla precedente. Tuttavia, la maggior parte dei concetti di statistica qui sono diversi. Si tratta di tipi di dati, misure di tendenza centrale (media, mediana, moda), misure di variabilità (gamma, varianza, deviazione standard…), misurazioni della relazione tra variabili (covarianza e correlazione), funzioni di distribuzione di probabilità, distribuzioni di dati continui e discreti, momenti e accuratezza.

Cheat sheet: Statistiche Cheat Sheet

Link: https://web.mit.edu/~csvoss/Public/usabo/stats_handout.pdf

Cosa otterrai: Questa cheat sheet in generale non copre nulla che non sia coperto dalle precedenti due cheat sheet. Tuttavia, oltre alle spiegazioni teoriche, questa offre esempi molto elaborati che ti faranno sicuramente capire il concetto in questione.

Algoritmi e Modelli

Tutti gli argomenti precedentemente menzionati di solito servono come base per il compito finale del data scientist: scrivere algoritmi e creare modelli. Qui è dove la conoscenza delle statistiche e della codifica incontra la conoscenza di trovare una cheat sheet utile che copra algoritmi e modelli.

Cheat sheet: I migliori algoritmi di previsione

Link: https://blog.dataiku.com/machine-learning-explained-algorithms-are-your-friend

Cosa otterrai: Questa cheat sheet spiega il machine learning in termini generali, così come gli algoritmi più popolari. Questi sono la regressione lineare e logistica, l’albero decisionale, la random forest, il boosting del gradiente e le reti neurali. Una caratteristica molto bella è un’infografica che descrive ogni algoritmo, i suoi vantaggi e svantaggi.

Cheat sheet: La tua cheat sheet definitiva di statistiche e matematica per Data Science

Link: https://towardsdatascience.com/your-ultimate-data-science-statistics-mathematics-cheat-sheet-d688a48ad3db

Cosa otterrai: Una spiegazione dettagliata delle metriche di machine learning. Copre gli argomenti di metriche di classificatori, metriche di regressori, indicatori statistici e tipi di distribuzione. Le spiegazioni sono approfondite, con chiare rappresentazioni grafiche, formule ed esempi.

Cheat sheet: Cheat Sheet per i modelli di Machine Learning

Link: https://medium.com/analytics-vidhya/machine-learning-models-cheatsheet-7885b33ca44f

Cosa otterrai: Di nuovo, una cheat sheet molto dettagliata che si concentra sugli algoritmi per il machine learning. Le spiegazioni sono dettagliate, contengono esempi e, soprattutto, passaggi per la costruzione di ogni algoritmo. L’autore copre i seguenti argomenti: regressione lineare multipla, regressione ad albero decisionale, regressione logistica, classificatore di Bayes ingenuo, valutazione delle prestazioni dei classificatori binari, curva ROC, macchina a vettori di supporto (SVM), random forest, clustering di k-means, nearest neighbors di k, clustering gerarchico, analisi delle componenti principali (PCA), analisi discriminante lineare (LDA), elaborazione dei dati di testo, algoritmi di ranking.

Conclusione

In questo articolo ho coperto la codifica, le strutture dati, la manipolazione dei dati, la visualizzazione dei dati, le statistiche e la probabilità e gli algoritmi e i modelli. Non sono, naturalmente, gli unici argomenti che dovresti coprire come data scientist. Ma sono gli argomenti di cui la maggior parte dei data scientist avrà bisogno nella loro carriera.

Le schede di riferimento che ho consigliato sono una lista ristretta di buone schede di riferimento che, secondo me, coprono al meglio l’argomento in questione. Ti terranno al sicuro nella maggior parte dei casi e, a mio avviso, sono almeno un buon punto di partenza.

Nate Rosidi è un data scientist e si occupa di strategia del prodotto. È anche un professore a contratto che insegna analisi dati ed è fondatore di StrataScratch, una piattaforma che aiuta i data scientist a prepararsi per i loro colloqui con domande di colloqui reali delle migliori aziende. Connettiti con lui su Twitter: StrataScratch o LinkedIn.