Cosa significa spazzatura dentro, spazzatura fuori nel risolvere problemi reali di business?

Spazzatura dentro, spazzatura fuori nel business.

Foto di Gary Chan su Unsplash

e come evitarlo con un flusso di lavoro pratico

Nel panorama aziendale odierno, affidarsi a dati accurati è più importante che mai. La frase “spazzatura in entrata, spazzatura in uscita” cattura perfettamente l’importanza della qualità dei dati nel raggiungimento di soluzioni di successo basate sui dati. Sebbene l’utilizzo del modello corretto per la previsione o la classificazione sia fondamentale, è impossibile ottenere buoni risultati senza un input di dati affidabile. Utilizzando funzionalità amplificate generate da fonti dati affidabili, anche le semplici regressioni lineari possono fornire risultati altamente accurati. In questo post del blog, discuterò dell’importanza dei dati nella risoluzione di problemi aziendali del mondo reale e delineerò i passaggi per creare un solido flusso di lavoro per la valutazione dei dati che garantisce la qualità dei dati di input per la modellazione precisa e la presa di decisioni intelligenti.

La realtà nella scienza dei dati applicata

Dopo aver lavorato come data scientist per oltre due anni, una delle mie osservazioni più sorprendenti è quanto tempo io e i miei colleghi dedichiamo alla pulizia dei dati. Mentre a scuola, la nostra attenzione è di solito rivolta a comprendere gli algoritmi fondamentali, i principi matematici alla base dei modelli, il processo globale di costruzione di un flusso di lavoro per la previsione, ecc. Spesso lavoriamo con set di dati perfetti che sono deliberatamente elaborati in un certo modo per consentirci di concentrarci solo sul processo di analisi esplorativa dei dati (EDA), la valutazione del modello e le parti di perfezionamento, il che ci porta a sottovalutare l’importanza della pulizia dei dati fino a quando non ci troviamo di fronte a dati aziendali del mondo reale nell’industria. I dati aziendali reali sono disordinati. Il disordine deriva, ma non è limitato a ciò, dai seguenti fattori:

  1. Diversità delle fonti di dati: Le aziende accumulano dati da una varietà di fonti. Ad esempio, un’azienda di e-commerce può raccogliere dati dagli acquisti dei clienti, dalla pianificazione delle vendite, dai processi di produzione, dalle campagne di marketing, ecc. Ogni fonte di dati ha i propri formati, strutture e livelli di qualità unici. Le incongruenze qui risultano in una grande sfida successiva quando si uniscono tutte le fonti di dati insieme per l’analisi successiva.
  2. Errore umano: La raccolta dei dati richiede il coinvolgimento umano, il che aumenta la probabilità di errori durante il processo. Gli errori commessi dagli esseri umani, come errori di battitura, scorretti…