Può il dato sintetico migliorare le prestazioni del machine learning?
Può il dato sintetico migliorare il machine learning?
Indagine sulla capacità dei dati sintetici di migliorare le prestazioni del modello su insiemi di dati sbilanciati

Contesto – Insiemi di dati sbilanciati
I problemi di classificazione sbilanciati si verificano frequentemente nei casi d’uso commerciali di machine learning. Li si può incontrare nella previsione della churn, nella rilevazione delle frodi, nella diagnosi medica o nella rilevazione dello spam. In tutti questi scenari, ciò che cerchiamo di individuare appartiene alla classe minoritaria, che può essere fortemente sottorappresentata nei nostri dati. Ci sono diverse approcci proposti per migliorare le prestazioni dei modelli su insiemi di dati sbilanciati:
- Sottocampionamento: Ottenere un insieme di dati di addestramento più bilanciato sottocampionando casualmente la classe maggioritaria.
- Sovracampionamento: Ottenere un insieme di dati di addestramento bilanciato sovracampionando casualmente la classe minoritaria.
- Pesi ponderati: Assegnare pesi alla funzione di perdita in relazione alla classe minoritaria.
- Dati sintetici: Utilizzare l’intelligenza artificiale generativa per creare campioni di dati sintetici ad alta fedeltà della classe minoritaria.
In questo articolo dimostro come l’addestramento di un modello su dati sintetici superi gli altri approcci nel migliorare le prestazioni del classificatore.
Il Dataset
I dati provengono da Kaggle e sono composti da 284.807 transazioni con carta di credito, di cui 492 (0,172%) sono etichettate come fraudolente. I dati sono disponibili sia per scopi commerciali che non commerciali con licenza Open Data Commons.
Per lettori interessati, Kaggle offre informazioni più dettagliate e statistiche descrittive di base sui dati.
- Stima dei coefficienti variabili nel tempo con regressione rollante
- Sviluppo di un Piano di Test per il Data Pipeline
- Comprendere meglio i test A/B capire meglio con domande difficili
Dal dataset di Kaggle, creo due sottoinsiemi: un set di addestramento e un set di test. Il set di addestramento comprende l’80% dei dati totali, insieme a campioni generati sinteticamente quando si esplora tale approccio. Il set di test costituisce il 20% dei dati originali, escludendo eventuali campioni sintetici.
