Una guida passo passo per costruire una strategia di qualità dei dati efficace da zero

Guida per creare una strategia di qualità dei dati efficace da zero

Come costruire un framework interpretabile per la qualità dei dati basato sulle aspettative degli utenti

Foto di Rémi Müller su Unsplash

Come ingegneri dei dati, siamo (o dovremmo essere) responsabili della qualità dei dati che forniamo. Questo non è niente di nuovo, ma ogni volta che partecipo a un progetto di dati mi pongo le stesse domande:

  • Quando dovrei iniziare a lavorare sulla qualità dei dati?
  • Quanto dovrei preoccuparmi della qualità dei dati?
  • A quali aspetti della qualità dei dati dovrei concentrarmi?
  • Da dove devo cominciare?
  • Quando i miei dati sono abbastanza validi per essere utilizzati?
  • Come posso evidenziare la qualità dei miei dati agli interessati?

La perfezione non esiste e non vuoi perdere slancio nel mostrare tutto il valore che i tuoi dati possono portare al business. Devi trovare un equilibrio tra qualità e tempo impiegato. Rispondere a queste domande è fondamentale per trovare il tuo equilibrio.

Lo scopo di questo articolo è condividere una guida passo-passo per ottenere tutte le risposte necessarie per costruire una strategia efficace per la qualità dei dati che soddisfi le esigenze del business. Questo processo implica la collaborazione tra gli interessati, i proprietari dei prodotti, gli sviluppatori e la condivisione delle metriche di qualità dei dati con gli utenti potenziali.

Inoltre, mostrerò esempi pratici sviluppati per un prodotto di dati che fornirebbe dati per uno strumento di reporting di una campagna di marketing, dimostrando come la strategia si traduca infine in valore commerciale.

Infine, affronterò come i prodotti di dati all’interno di un’implementazione di data-mesh ci aiutano a condividere il livello di qualità dei nostri dati con gli utenti prima ancora di accedere ai dati.

Iniziamo con la prima domanda

Quando dovrei iniziare a lavorare sulla qualità dei dati?

Penso che tutti noi abbiamo una voce interiore con la risposta alla prima domanda: fin dal primo giorno. Lavorare e comprendere le aspettative sulla qualità dei dati fin dall’inizio è la chiave per garantire fiducia e adozione anticipata da parte degli utenti. Ciò ci porta a ricevere feedback tempestivi che ci aiutano a migliorare durante lo sviluppo. E in quanto produttori di dati, non vogliamo trovarci in una situazione in cui la credibilità dei nostri dati è compromessa da eventuali problemi di qualità iniziali.

Quanto dobbiamo preoccuparci della qualità dei dati?

Questa domanda dipende dal caso d’uso specifico. Per rispondere, il tuo team deve comprendere la natura del bisogno che i nostri dati devono soddisfare. Il punto di partenza è sapere come i nostri dati saranno utilizzati.

Possiamo organizzare una sessione con gli interessati e i proprietari del business per ottenere informazioni su come intendono utilizzare i dati. Grazie a questa collaborazione, stabiliremo gli standard di qualità dei dati che sono allineati con le effettive esigenze e aspettative dei nostri utenti.

Questo sarà l’esempio pratico, la consolidazione dei dati per uno strumento di reporting di una campagna di marketing

Esempio di risultato del pattern di utilizzo dei dati (immagine dell'autore)

Da questo esempio abbiamo ottenuto:

  • Con quale frequenza e quante persone avranno accesso ai nostri dati, quindi capiamo che tipo di prestazioni dobbiamo fornire
  • Quanto completi e accurati devono essere i nostri dati, quindi capiamo che tipo di controlli dobbiamo aggiungere al nostro flusso di dati. Fornire un alto livello di accuratezza e completezza implica controlli di unicità, completezza e gestione delle incongruenze.
  • Quanto freschi devono essere i nostri dati, quindi capiamo con quale frequenza dobbiamo eseguire le trasformazioni per aggiornare i dati
  • Quando i nostri dati devono essere accessibili, quindi capiamo la disponibilità che dobbiamo fornire

Obiettivi di livello di servizio

Il risultato finale di questa pratica è tracciare la base per i nostri Obiettivi di Livello di Servizio. Nella qualità dei dati, un Obiettivo di Livello di Servizio (SLO) è un obiettivo specifico e misurabile che definisce il livello di qualità dei dati atteso per un particolare servizio o processo dati. Gli SLO stabiliscono metriche e soglie quantificabili per garantire che i dati soddisfino gli standard di qualità predefiniti e siano in linea con le esigenze e le aspettative degli utenti e degli interessati.

Nel nostro scenario, uno degli SLO che possiamo definire è che i nostri dati dovrebbero essere ricalcolati ogni 6 ore. Nel caso in cui i dati siano più vecchi di questa soglia, non soddisfano questo specifico SLO.

A quali aspetti della qualità dei dati dovrei concentrarmi?

Ora siamo in una posizione all’interno del team per abbassare il livello di astrazione alle dimensioni della qualità dei dati. Una dimensione della qualità dei dati rappresenta un aspetto specifico della qualità dei dati che ha alcune caratteristiche specifiche. Ogni dimensione della qualità dei dati si concentra su un particolare aspetto dei dati e aiuta a identificare le aree che potrebbero richiedere miglioramenti.

Alcune di queste dimensioni sono:

  • Accuratezza: Il grado in cui i valori dei dati riflettono la realtà e sono privi di errori.
  • Completezza: La misura in cui tutti gli elementi dati richiesti sono presenti senza valori mancanti.
  • Coerenza: Il livello di armonia e conformità dei dati tra diverse fonti o all’interno dello stesso set di dati.
  • Puntualità: La misura di quanto i dati siano aggiornati.
  • Unicità: Il grado in cui ogni record è distinto e non duplicato nel set di dati.

Comprendendo il modello di utilizzo dei nostri dati e gli SLO, identifichiamo le dimensioni su cui dovremmo lavorare e associamo ciascuna di esse al valore reale che apportano al nostro scenario. Ciò ci aiuta a identificare gli aspetti più rilevanti della qualità dei dati su cui dobbiamo lavorare e a iniziare a pensare ad azioni specifiche.

Dimensioni della qualità dei dati direttamente collegate al valore reale del business nel nostro esempio (immagine dell'autore)

Seguendo il nostro esempio, abbiamo collegato le dimensioni della qualità dei dati identificate nella sessione Modello di Utilizzo con il valore aziendale che forniscono direttamente.

Da dove comincio?

Una volta identificate le dimensioni della qualità dei dati insieme al valore aziendale corrispondente che forniscono, organizzeremo una sessione collaborativa all’interno del team per stabilire obiettivi specifici, misurabili e realizzabili per soddisfare efficacemente ciascuna dimensione. Questi obiettivi serviranno come base per definire compiti concreti, come l’aggiunta di test di qualità dei dati nella fase di trasformazione, l’esecuzione di un’analisi delle lacune o l’incorporazione di processi robusti di pulizia dei dati. Allineando i nostri sforzi sulla qualità dei dati a questi obiettivi ben definiti, ci assicuriamo che le nostre azioni affrontino direttamente le esigenze aziendali e migliorino complessivamente la qualità dei dati.

Tutte le azioni individuate nel processo saranno aggiunte al nostro backlog e priorizzate dal team. Il risultato finale è un framework di qualità dei dati personalizzato adattato alle esigenze aziendali che ci consente di monitorare i nostri progressi.

Framework di qualità dei dati con i nostri obiettivi e azioni per garantire il valore aziendale dei nostri dati nel nostro esempio (immagine dell'autore)

Avere un framework di qualità dei dati che sia visibile e di facile interpretazione per gli stakeholder ha alcuni vantaggi:

  • Fornisce chiarezza su come la qualità dei dati viene gestita, monitorata e migliorata all’interno dell’organizzazione.
  • Promuove fiducia e trasparenza nelle pratiche di gestione dei dati.
  • Riduce le possibilità di interpretazione errata degli standard di qualità dei dati.
  • Dimostra l’impegno del team e dell’organizzazione nella qualità dei dati e nella sua importanza nel guidare il successo aziendale.

Quando i miei dati sono abbastanza buoni per essere utilizzati?

Il tuo framework risponderà a questa domanda. Una volta raggiunti tutti i tuoi obiettivi per preparare i dati per soddisfare le aspettative aziendali, puoi essere abbastanza sicuro di fornirli agli utenti e cercare il loro feedback per ulteriori miglioramenti.

Ricorda che l’input per il tuo lavoro sono gli Obiettivi di Livello di Servizio che sono stati identificati nella sessione Modello di Utilizzo. Poiché i tuoi dati sono allineati con questi obiettivi, non c’è motivo di trattenerli temendo che non soddisfino ancora i requisiti.

Cosa fare una volta che i tuoi dati sono stati pubblicati?

Monitoraggio

Tutte le azioni e gli obiettivi definiti nella tua strategia di qualità dei dati devono essere monitorati attivamente. È essenziale utilizzare strumenti di monitoraggio che possano creare avvisi e comunicare attraverso vari canali per una rilevazione precoce.

Inoltre, è cruciale registrare i tuoi incidenti e categorizzarli in base alle dimensioni interessate. Questa pratica ti permette di concentrare la tua attenzione su aree specifiche e identificare eventuali lacune nella tua strategia. Ancora meglio, se mantieni un rapporto sugli incidenti, ti permette di riflettere su come il tuo lavoro in aree specifiche contribuisce a ridurre il numero di incidenti nel tempo.

Registro degli incidenti per mese e per dimensioni di qualità dei dati. Sugli adesivi ci sarebbe una breve descrizione dell'incidente (immagine dell'autore)

Revisioni periodiche del framework

Il tuo team deve rivedere periodicamente il registro degli incidenti e aggiornare di conseguenza il tuo framework di qualità dei dati per colmare le lacune identificate. Ciò assicura che le tue azioni e gli obiettivi riflettano la realtà e siano aggiornati.

Indicatori di livello di servizio e trasparenza

È essenziale misurare il raggiungimento dei tuoi Obiettivi di Livello di Servizio. Per ogni OLS, dovresti avere un Indicatore di Livello di Servizio (SLI) che mostri il raggiungimento dell’OLS. Ad esempio, nel nostro esempio potresti avere un SLI che mostra la percentuale di successo negli ultimi X giorni di non avere dati più vecchi di 6 ore in produzione (dimensione della tempestività). Questo aiuta gli utenti a capire come si comportano i dati e a costruire fiducia nella loro qualità.

Indicatori di livello di servizio per le dimensioni di qualità dei dati (immagine dell'autore)

La trasparenza nella pratica è fondamentale per aumentare l’adozione da parte degli utenti e gli Indicatori di Livello di Servizio sono responsabili di fornire questa trasparenza.

Condivisione delle nostre Metriche di Qualità dei Dati

Per la condivisione delle nostre metriche di qualità dei dati (SLI), mi piace molto abbracciare il concetto di prodotto dati all’interno di un’implementazione di data-mesh.

La nostra strategia di qualità dei dati ha queste caratteristiche:

  • È specifico del dominio poiché gli obiettivi derivano da una necessità aziendale
  • Trasparente poiché possiamo condividerlo e vogliamo condividerlo con gli utenti
  • Visibile poiché il nostro framework di qualità dei dati è di facile interpretazione

Questo si allinea perfettamente con la definizione che data-mesh dà ai prodotti dati. Raccomando vivamente di utilizzare un’approccio di data-mesh che racchiuda dati e metriche di qualità in prodotti dati per migliorare la trasparenza.

Perché utilizzare prodotti dati per la condivisione delle nostre metriche di qualità dei dati

Per definizione, un prodotto dati in data-mesh è un’unità autonoma e specifica del dominio delle capacità di dati. Racchiudono dati, logica di elaborazione e controlli di qualità dei dati, promuovendo la proprietà dei dati decentralizzata e l’integrazione senza soluzione di continuità nell’ecosistema dati più ampio. Sono progettati per soddisfare specifiche necessità aziendali in un determinato dominio. Sono facilmente rintracciabili e trasparenti. Come componenti integrali del nostro framework di qualità dei dati, i prodotti dati assicurano che la nostra strategia si allinei precisamente ai requisiti unici di ciascun dominio, fornendo visibilità e trasparenza per la qualità dei dati specifica del dominio.

Uno dei principali vantaggi dei prodotti dati nel contesto della qualità dei dati è la loro capacità di contenere i propri SLI. Integrando gli indicatori di qualità dei dati direttamente nei prodotti dati e rendendoli visibili attraverso un catalogo facile da usare, forniamo agli utenti la possibilità di cercare, richiedere l’accesso ed esplorare i dati con piena conoscenza della loro qualità. Questa trasparenza e visibilità aumentano la fiducia degli utenti e incoraggiano una maggiore adozione.

Conclusione

In tutto questa guida passo passo, abbiamo imparato come impostare Obiettivi di Livello di Servizio misurabili che coprono le necessità aziendali, identificare le dimensioni della qualità dei dati e allineare le nostre azioni agli obiettivi per soddisfare le aspettative definite dagli OLS. Abbracciando la trasparenza e la visibilità offerte dai prodotti dati, possiamo condividere efficacemente le nostre metriche di qualità dei dati per costruire fiducia e aumentare l’adozione degli utenti. Ricorda, la perfezione non esiste. Il monitoraggio continuo, la registrazione degli incidenti e le revisioni periodiche ci aiutano a mantenere il nostro framework di qualità dei dati aggiornato.

Seguendo questi passaggi, sarai in grado di creare un solido framework per la qualità dei dati e costruire un insieme di artefatti che servono come base di conoscenza condivisibile per la qualità dei dati e sono facili da interpretare per gli stakeholder e i membri del team. E ancora meglio, il tuo framework per la qualità dei dati mantiene un perfetto equilibrio tra sforzo e necessità che permetterà al tuo team di rilasciare i dati non appena sono pronti per soddisfare le esigenze del business.

Felice ingegneria dei dati!

Riferimenti

https://www.thoughtworks.com/en-es/insights/blog/digital-transformation/how-to-brew-a-perfect-strategy-responsibly-part-one

https://towardsdatascience.com/how-to-create-a-data-quality-framework-6887dea268ae