Verso l’essere strumento-agnostico in Data Science SQL Case When e Pandas Where
Essere strumento-agnostico in Data Science con SQL Case When e Pandas Where
Spiegato con esempi

I tuoi dati dei clienti sono in un database SQL. Ti viene assegnato un compito che consiste nel recuperare dati da alcune tabelle, eseguire alcune operazioni di pulizia e manipolazione dei dati e scrivere i risultati in una tabella diversa.
Purtroppo, non sai come fare queste operazioni con SQL. Non preoccuparti! Sei bravo nell’uso di Pandas per la pulizia e la manipolazione dei dati. Quindi, hai una soluzione, che è:
- Recupera tutti i dati dalle tabelle SQL
- Scarica i dati come file CSV
- Leggi i file CSV in Pandas DataFrames
- Esegui le operazioni di pulizia e manipolazione dei dati richieste
- Scrivi i risultati in un file CSV diverso
- Carica i dati nel file CSV in una tabella SQL
Piano interessante, vero?
Se effettivamente esegui questo piano, sono sicuro che il tuo responsabile avrà una conversazione con te, che può essere piacevole o spiacevole a seconda della personalità del tuo responsabile. In ogni caso, dopo questa conversazione non penso che eseguirai più questo fantastico piano.
- 5 trucchi di Jupyter Notebook che ho scoperto solo 2 anni dopo l’inizio della mia carriera in Data Science
- Dalla connettività all’intelligenza come Blockchain e Intelligenza Artificiale stanno trasformando l’ecosistema IoT
- Migliora i tuoi progetti di Data Science, Machine Learning e Computer Vision Strumenti essenziali per una gestione efficace del progetto
So che di solito ci sono molti modi diversi per svolgere un compito in data science. Dovresti sempre puntare al modo più efficiente perché di solito lavorerai con dataset molto grandi. Rendere le cose più complicate del necessario ti costa tempo e denaro extra.
“Sono bravo in Pandas, quindi farò tutto con Pandas” non è un atteggiamento desiderato. Se il tuo compito prevede la lettura dei dati dalle tabelle SQL e la scrittura dei risultati nelle tabelle SQL, di solito il modo migliore è fare le operazioni intermedie usando SQL.
SQL non è solo un linguaggio di interrogazione. Può essere utilizzato anche come uno strumento di analisi e manipolazione dei dati altamente efficiente.
Ricordo di aver scritto lavori SQL per eseguire operazioni di preelaborazione dati molto complesse e hanno funzionato bene.
La data science è ancora un campo in evoluzione. Nuovi strumenti e concetti vengono introdotti in poco tempo. Non dovresti dipendere da un singolo strumento e dovresti sempre essere aperto a impararne di nuovi.