Verso l’essere strumento-agnostico in Data Science SQL Case When e Pandas Where

Essere strumento-agnostico in Data Science con SQL Case When e Pandas Where

Spiegato con esempi

Foto di Monika Simeonova su Unsplash

I tuoi dati dei clienti sono in un database SQL. Ti viene assegnato un compito che consiste nel recuperare dati da alcune tabelle, eseguire alcune operazioni di pulizia e manipolazione dei dati e scrivere i risultati in una tabella diversa.

Purtroppo, non sai come fare queste operazioni con SQL. Non preoccuparti! Sei bravo nell’uso di Pandas per la pulizia e la manipolazione dei dati. Quindi, hai una soluzione, che è:

  • Recupera tutti i dati dalle tabelle SQL
  • Scarica i dati come file CSV
  • Leggi i file CSV in Pandas DataFrames
  • Esegui le operazioni di pulizia e manipolazione dei dati richieste
  • Scrivi i risultati in un file CSV diverso
  • Carica i dati nel file CSV in una tabella SQL

Piano interessante, vero?

Se effettivamente esegui questo piano, sono sicuro che il tuo responsabile avrà una conversazione con te, che può essere piacevole o spiacevole a seconda della personalità del tuo responsabile. In ogni caso, dopo questa conversazione non penso che eseguirai più questo fantastico piano.

So che di solito ci sono molti modi diversi per svolgere un compito in data science. Dovresti sempre puntare al modo più efficiente perché di solito lavorerai con dataset molto grandi. Rendere le cose più complicate del necessario ti costa tempo e denaro extra.

“Sono bravo in Pandas, quindi farò tutto con Pandas” non è un atteggiamento desiderato. Se il tuo compito prevede la lettura dei dati dalle tabelle SQL e la scrittura dei risultati nelle tabelle SQL, di solito il modo migliore è fare le operazioni intermedie usando SQL.

SQL non è solo un linguaggio di interrogazione. Può essere utilizzato anche come uno strumento di analisi e manipolazione dei dati altamente efficiente.

Ricordo di aver scritto lavori SQL per eseguire operazioni di preelaborazione dati molto complesse e hanno funzionato bene.

La data science è ancora un campo in evoluzione. Nuovi strumenti e concetti vengono introdotti in poco tempo. Non dovresti dipendere da un singolo strumento e dovresti sempre essere aperto a impararne di nuovi.

Pandas vs SQL