Dieci casi comuni di dati errati da conoscere e le relative soluzioni

10 casi comuni di dati errati e soluzioni

Introduzione

Nell’era basata sui dati, l’importanza dei dati di alta qualità non può essere sottovalutata. L’accuratezza e l’affidabilità dei dati svolgono un ruolo fondamentale nel plasmare decisioni aziendali cruciali, influenzando la reputazione e il successo a lungo termine di un’organizzazione. Tuttavia, i dati di scarsa qualità possono portare a risultati disastrosi. Per proteggersi da tali rischi, le organizzazioni devono essere vigili nell’individuare ed eliminare questi problemi di dati. In questo articolo, presentiamo una guida completa per riconoscere ed affrontare dieci casi comuni di dati di scarsa qualità, permettendo alle aziende di prendere decisioni informate e mantenere l’integrità dei loro sforzi basati sui dati.

Cos’è un dato di scarsa qualità?

Un dato di scarsa qualità si riferisce a dati con una qualità non adatta alla causa della raccolta e dell’elaborazione. I dati grezzi ottenuti direttamente dopo l’estrazione da diversi siti di social media o da qualsiasi altro metodo sono di scarsa qualità e dati grezzi. Richiedono un’elaborazione e una pulizia per aumentare la loro qualità.

Perché è importante la qualità dei dati?

I dati servono a numerosi scopi nell’azienda. Agendo come base di molte decisioni e funzioni, il compromesso sulla qualità influisce sul processo complessivo. È responsabile dell’accuratezza, della coerenza, dell’affidabilità e della completezza dei dati, aspetti importanti che richiedono azioni separate e dettagliate per funzionare correttamente.

Le 10 principali problematiche dei dati di scarsa qualità e le loro soluzioni

Ecco le 10 principali problematiche dei dati di scarsa qualità che è necessario conoscere e le relative soluzioni potenziali:

  1. Dati incoerenti
  2. Valori mancanti
  3. Voci duplicate
  4. Outlier
  5. Dati non strutturati
  6. Inaccuratezza dei dati
  7. Completezza dei dati
  8. Prevenzione dei dati distorti
  9. Sicurezza inadeguata dei dati
  10. Governance dei dati e gestione della qualità

Dati incoerenti

I dati vengono definiti incoerenti in presenza di valori conflittuali o contraddittori. Le cause possono essere i diversi tipi di risultati ottenuti dopo la raccolta da diverse fonti o metodi di raccolta dei dati. Può anche accadere a causa della mancata allineamento dei dati provenienti da diversi periodi di tempo a causa di errori di misurazione, metodologie di campionamento e altri fattori.

Sfide

  • Conclusioni errate: porta a trarre analisi scorrette o fuorvianti che influenzano i risultati
  • Riduzione della fiducia: diminuisce la fiducia
  • Spreco di risorse: la raccolta dei dati è un compito seguito dalla loro elaborazione. Lavorare su dati incoerenti e errati spreca sforzi, risorse e tempo
  • Decisioni basate su pregiudizi: l’incoerenza dei dati porta a dati distorti che generano e accettano una prospettiva unilaterale

Soluzioni

  • Sii trasparente riguardo alle limitazioni dei dati durante la presentazione dei dati e la loro interpretazione
  • Verifica le fonti dei dati prima della valutazione
  • Controlla la qualità dei dati
  • Scegli il metodo di analisi appropriato

Leggi anche: Combattere le incongruenze dei dati con SQL

Valori mancanti

Esistono vari metodi per identificare i valori mancanti o NULL nel dataset, come l’ispezione visiva, la revisione delle statistiche di sintesi, l’uso di strumenti di visualizzazione e profilazione dei dati, le query descrittive e le tecniche di imputazione.

Sfide

  • Problemi di distorsione e campionamento: porta a
  • Errata interpretazione: l’errata interpretazione si riscontra nelle relazioni tra le variabili, portando a dipendenze non evidenti
  • Dimensione del campione ridotta: pone limitazioni nell’uso di software o funzioni specifiche per dimensioni del campione
  • Perdita di informazioni: comporta una diminuzione della ricchezza e completezza del dataset

Soluzioni

  • Imputazione: utilizzare metodi di imputazione per creare matrici di dati complete con stime generate dalla media, mediana, regressione, statistiche e modelli di apprendimento automatico. È possibile utilizzare imputazioni singole o multiple
  • Comprendere il meccanismo dei dati mancanti o di scarsa qualità: analizzare il pattern dei dati mancanti, che possono essere di diversi tipi come Mancanza Completamente a Caso (MCAR)
  • Ponderazione: utilizzare tecniche di ponderazione per identificare l’impatto dei valori mancanti sull’analisi
  • Raccolta: l’aggiunta di più dati può riempire i valori mancanti o ridurne l’impatto
  • Rapporto: focalizzarsi sul problema fin dall’inizio per evitare distorsioni

Voci duplicate

Le voci duplicate o record ridondanti vengono identificate come la presenza di copie multiple dei dati all’interno del dataset. Ciò avviene a causa della fusione dei dati, dei difetti di sistema, degli errori di inserimento e gestione dei dati.

Effetto

  • Analisi inaccurata: oltre all’impatto generale, l’effetto si riscontra sulle misure statistiche con conseguenze sulle intuizioni dei dati
  • Stima impropria: ciò porta a sovrastime o sottostime degli attributi
  • Integrità dei dati: perdita di precisione e affidabilità a causa di dati errati

Sfide

  • Archiviazione: requisiti aumentati e irrilevanti che comportano costi maggiori e spreco di risorse
  • Elaborazione: diminuisce a causa dell’aumento del carico sul sistema che influisce sulla sua elaborazione e analisi
  • Mantenimento: richiede uno sforzo aggiuntivo per il mantenimento e l’organizzazione dei dati

Soluzioni

  • Identificatore univoco: inserisci o imposta un identificatore univoco per prevenire o riconoscere facilmente le voci duplicate
  • Vincoli: introduci vincoli sui dati per garantire l’integrità dei dati
  • Audit: effettua regolari audit dei dati
  • Corrispondenza approssimata: utilizza algoritmi di corrispondenza approssimata per l’identificazione di duplicati con leggere variazioni
  • Hashing: aiuta nell’identificazione di record duplicati attraverso l’etichettatura

Outliers

Gli outliers sono valori estremi o osservazioni che si trovano lontano dal dataset principale. La loro intensità può essere grande o piccola e possono essere raramente presenti nei dati. La ragione della loro presenza sono errori di inserimento dei dati e errori di misurazione accompagnati da eventi estremi genuini nei dati.

Significato

  • Statistiche descrittive: l’impatto si riscontra nella media e nella deviazione standard che influiscono sul riepilogo dei dati
  • Distribuzione asimmetrica: porta a supposizioni improprie di test e modelli statistici
  • Predizione inaccurata: gli outliers influiscono negativamente sui modelli di apprendimento automatico portando a previsioni inaccurate

Meccanismi

  • Variazione aumentata: gli outliers aumentano la variabilità dei dati, risultando in deviazioni standard più grandi
  • Effetto sulla tendenza centrale: cambiano il valore centrale e quindi modificano la media, la mediana e altre interpretazioni centrali dei dati
  • Distorsione nei modelli di regressione: gli outliers modificano la proporzione e portano a stime dei coefficienti e prestazioni del modello distorte
  • Test di ipotesi errati: violano le ipotesi dei test, portano a valori p errati e traggono conclusioni erronee

Soluzioni

  • Rilevazione basata su soglia: indica un valore di soglia specifico secondo le conoscenze di dominio o il metodo statistico
  • Winsorizzazione: tronca o limita i valori estremi per ridurre l’impatto degli outliers
  • Trasformazione: applica trasformazioni logaritmiche o radice quadrata
  • Tecniche di modellazione: utilizza regressione robusta o modelli basati su alberi
  • Rimozione degli outliers: rimuovi i valori con attenta considerazione se rappresentano una sfida estrema

Dati non strutturati

I dati privi di una struttura o organizzazione predefinita presentano sfide all’analisi e vengono chiamati dati non strutturati. Questi derivano da cambiamenti nei formati dei documenti, dal web scraping, dalla mancanza di un modello di dati fisso, da fonti digitali ed analogiche e da tecniche di raccolta dati.

Sfide

  • Mancanza di struttura: il problema causa difficoltà nell’analisi utilizzando metodi tradizionali
  • Dimensionalità: tali dati sono altamente dimensionali o contengono molteplici caratteristiche e attributi
  • Eterogeneità dei dati: possono utilizzare formati e linguaggi diversi, possono avere standard di codifica diversi e rendono più complessa l’integrazione
  • Estrazione di informazioni: i dati non strutturati richiedono l’elaborazione tramite elaborazione del linguaggio naturale (NLP), tecniche di elaborazione audio o visione artificiale
  • Impatto sulla qualità dei dati: comporta una mancanza di precisione e fonti verificabili, causa problemi di integrazione e genera dati irrilevanti e errati

Soluzione

  • Gestione dei metadati: utilizza i metadati per informazioni aggiuntive per un’analisi ed integrazione efficiente
  • Ontologie e tassonomie: crea queste per una migliore comprensione
  • Visione artificiale: elabora immagini e video attraverso la visione artificiale per l’estrazione di caratteristiche e il riconoscimento degli oggetti
  • Elaborazione audio e dati: implementa tecniche di elaborazione audio per la trascrizione, la rimozione di rumore e contenuti irrilevanti
  • Elaborazione del linguaggio naturale (NLP): utilizza tecniche avanzate per l’elaborazione e l’estrazione di informazioni dai dati testuali

Inaccuratezza dei dati

Gli errori umani, gli errori di inserimento dei dati e le informazioni obsolete costituiscono l’accuratezza dei dati, che possono assumere le seguenti forme:

  • Errori di battitura: presenza di cifre invertite, formattazione errata, errori di ortografia
  • Dati incompleti: dati mancanti
  • Duplicazione dei dati: le voci ridondanti gonfiano o aumentano i numeri e distorcono i risultati statistici
  • Informazioni obsolete: portano alla perdita di rilevanza che porta a decisioni e conclusioni errate
  • Dati incoerenti: individuati dalla presenza di diverse unità di misura e nomi di variabili e ostacolano l’analisi e l’interpretazione dei dati
  • Errata interpretazione dei dati: dati presenti in contesti diversi o che conferiscono prospettive o significati diversi

Soluzione

  • Pulizia e validazione dei dati (il più importante)
  • Strumenti automatizzati per la qualità dei dati
  • Regole di convalida e logica aziendale
  • Standardizzazione
  • Segnalazione degli errori e registrazione

Importanza della pulizia e della validazione dei dati

  • Risparmio di costi: previene risultati inaccurati, risparmiando quindi risorse
  • Riduzione degli errori: previene lo sviluppo di rapporti basati sugli errori
  • Affidabilità: il processo di validazione e pulizia dei dati genera dati affidabili e quindi risultati affidabili
  • Processo decisionale efficace: i dati affidabili aiutano nell’efficace processo decisionale

Incompletezza dei dati

L’assenza di attributi fondamentali per l’analisi, la presa di decisioni e la comprensione è definita come mancanza di attributi chiave. Questi si generano a causa di errori di inserimento dei dati, raccolta incompleta dei dati, problemi di elaborazione dei dati o omissione intenzionale dei dati. L’assenza di dati completi gioca un ruolo chiave nel compromettere l’analisi esaustiva, come evidenziato dai numerosi problemi riscontrati in sua presenza.

Sfide

  • Difficoltà nella rilevazione di pattern: causano problemi nella rilevazione di pattern e relazioni significative all’interno dei dati
  • Perdita di informazioni: i risultati mancano di informazioni preziose e intuizioni a causa di dati difettosi
  • Prevenzione: lo sviluppo di pregiudizi e problemi con il campionamento è comune a causa della distribuzione non casuale dei dati mancanti
  • Distorsione statistica: i dati incompleti portano a un’analisi statistica distorta e a una stima dei parametri inaccurata
  • Impatto sulle prestazioni del modello: l’impatto principale si osserva nelle prestazioni dei modelli di apprendimento automatico e nelle previsioni
  • Comunicazione: i dati incompleti comportano una comunicazione errata dei risultati agli stakeholder

Soluzioni

  • Raccolta di dati aggiuntivi: raccogliere più dati per colmare facilmente le lacune nei dati scadenti
  • Impostare indicatori: riconoscere le informazioni mancanti attraverso indicatori e gestirle in modo efficiente senza compromettere il processo e il risultato
  • Analisi di sensibilità: cercare l’impatto dei dati mancanti sui risultati dell’analisi
  • Migliorare la raccolta dei dati: individuare gli errori o le carenze nel processo di raccolta dati per ottimizzarli
  • Auditing dei dati: effettuare regolari audit per individuare errori nel processo di raccolta dati e dei dati raccolti

Bias dei dati

Il bias dei dati è la presenza di errori sistematici o pregiudizi in un set di dati che portano a inesattezze o generazione di risultati inclinati verso un gruppo. Può verificarsi in qualsiasi fase, come la raccolta, l’elaborazione o l’analisi dei dati.

Sfide

  • Mancanza di accuratezza: il bias dei dati porta a un’analisi e conclusioni distorte
  • Preoccupazioni etiche: genera preoccupazioni etiche quando le decisioni sono a favore di una persona, comunità, prodotto o servizio, aiutandoli
  • Predizione fuorviante: i dati tendenziosi portano a modelli predittivi non affidabili e previsioni inaccurate
  • Campioni non rappresentativi: influenza il processo di generalizzazione delle conclusioni a una popolazione più ampia

Soluzione

  • Metriche di bias: utilizzare metriche di bias per monitorare e controllare il bias nei dati
  • Inclusività: aggiungere dati provenienti da gruppi diversi per evitare l’esclusione sistematica
  • Equità algoritmica: implementare algoritmi di apprendimento automatico capaci di ridurre il bias
  • Analisi di sensibilità: eseguirla per valutare l’impatto del bias dei dati sui risultati dell’analisi
  • Auditing e profilazione dei dati: effettuare regolari audit e profilazione dei dati
  • Documentazione: documentare chiaramente e precisamente i dati per trasparenza e per affrontare facilmente i bias

Sicurezza dei dati inadeguata

I problemi di sicurezza dei dati compromettono l’integrità dei dati e la reputazione dell’organizzazione. Le conseguenze si manifestano attraverso l’accesso non autorizzato, la manipolazione dei dati, gli attacchi ransomware e le minacce interne.

Sfide

  • Vulnerabilità dei dati: Identificazione dei punti vulnerabili
  • Minacce avanzate: Gli attacchi informatici sofisticati richiedono tecniche di gestione avanzate ed efficienti
  • Regolamentazione della privacy dei dati: Garantire la sicurezza dei dati nel rispetto delle leggi sulla protezione dei dati in evoluzione è complesso
  • Consapevolezza dei dipendenti: Richiede l’educazione di ogni membro del personale

Soluzioni

  • Crittografia: Richiede la crittografia dei dati sensibili a riposo e in transito per proteggerli dall’accesso non autorizzato
  • Controlli di accesso: Implementare un accesso strettamente controllato per i dipendenti in base ai loro ruoli e alle loro esigenze
  • Firewall e sistema di rilevamento delle intrusioni (IDS): Implementare misure di sicurezza con firewall integrati e installazione di IDS
  • Autenticazione a più fattori: Utilizzare l’autenticazione a più fattori per una sicurezza aggiuntiva
  • Backup dei dati: Mitiga l’impatto degli attacchi informatici
  • Sicurezza dei fornitori: Valutare e imporre standard di sicurezza dei dati per i fornitori di terze parti

Governance dei dati e gestione della qualità

La governance dei dati riguarda l’istituzione di politiche, procedure e linee guida per garantire l’integrità, la sicurezza e la conformità dei dati. La gestione della qualità dei dati si occupa di processi e tecniche per migliorare, valutare e mantenere l’accuratezza, la coerenza e la completezza dei dati di scarsa qualità per migliorarne la affidabilità.

Sfide

  • Silos di dati: I dati frammentati sono difficili da integrare e mantenere la coerenza
  • Preoccupazioni sulla privacy dei dati: La condivisione dei dati, la privacy e la gestione di informazioni sensibili rappresentano una sfida
  • Allineamento organizzativo: L’adesione e l’allineamento sono complessi nelle grandi organizzazioni
  • Proprietà dei dati: Difficile identificare ed istituire la proprietà dei dati
  • Maturità della governance dei dati: Richiede tempo per la transizione da pratiche di dati ad hoc a una governance matura

Soluzioni

  • Miglioramento dei dati: Include il profiling, la pulizia, la standardizzazione, la validazione dei dati e l’audit
  • Automazione della qualità: Automatizzare il processo di validazione e pulizia
  • Monitoraggio continuo: Monitorare regolarmente la qualità dei dati e affrontare contemporaneamente i problemi
  • Mechanismo di feedback: Creare un meccanismo come moduli o opzioni per segnalare problemi di qualità dei dati e suggerimenti

Conclusione

Riconoscere e affrontare i dati di scarsa qualità è essenziale per qualsiasi organizzazione basata sui dati. Capendo i casi comuni di scarsa qualità dei dati, le aziende possono adottare misure proattive per garantire l’accuratezza e l’affidabilità dei propri dati. Il programma Blackbelt di Analytics Vidhya offre un’esperienza di apprendimento completa, dotando i professionisti dei dati delle competenze e conoscenze necessarie per affrontare efficacemente le sfide dei dati. Iscriviti al programma oggi stesso e datti gli strumenti per diventare un analista di dati competente in grado di navigare le complessità dei dati per prendere decisioni informate e ottenere un successo notevole nel mondo basato sui dati.

Domande frequenti