Retro-ingegneria di uno schema di database e controlli di qualità GPT vs. Bard

Retro-ingegneria schema db e controlli qualità GPT vs. Bard

LLMs possono retro-ingegnerizzare un dataset consolidato per progettare il database originale e suggerire i controlli sulla qualità dei dati corrispondenti?

Foto di Jake Trotman su Unsplash

Nella continuità dei miei post precedenti su come sfruttare l’IA generativa per le attività dei dati, vorrei esplorare questo caso d’uso in cui un team di dati riceve un dataset consolidato da una funzione (diciamo Risorse Umane) e ha bisogno di ridisegnare un modello di dati appropriato nella loro piattaforma dati per gestire le future query.

Confronteremo le risposte di GPT-4 e Bard per determinare quale modello offre risposte più pertinenti.

(Nota: il notebook e la fonte dei dati sono disponibili alla fine dell’articolo)

Il Dataset Iniziale (e Finale)

A volte, le soluzioni aziendali ti permettono solo di estrarre informazioni dal loro sistema proprietario sotto forma di report… e, se hai fortuna, potrebbero persino essere accessibili tramite API.

Questo è il caso di “MyCompany” dove il sistema legacy HRIS può fornire solo un estratto di tutti i dipendenti, contenente molti dettagli riguardanti anche l’azienda, alcuni dei quali riservati.

Seguendo i principi di Data Mesh, il team delle Risorse Umane vorrebbe esporre questi dati, ma capiscono anche che il report non può essere utilizzato come tale, senza considerare i problemi di riservatezza che riguardano alcune colonne come “Salario”, “Età” o “Valutazione Annuale”.

Il Report Originale del Sistema Legacy HRIS (Immagine di Autore)

Retro-ingegnerizzazione del Modello di Dati

Quando si interagisce con il Team dei Dati, tutti intorno al tavolo capiscono rapidamente che questo dataset non può essere diffuso a tutte le funzioni/dipendenti e che deve essere diviso in più tabelle.

Alcune di queste tabelle potrebbero essere sfruttate da molti per altre analisi o casi d’uso:

  • l’elenco dei dipartimenti interni
  • l’elenco dei dipendenti con il loro indirizzo email, dipartimento, paese e posizione