Dati sintetici generati da intelligenza artificiale

Dati sintetici AI generati

Spiegato nel modo migliore possibile: con i gatti!

Perché i dati sintetici generati dall’IA sono così popolari in questi giorni? In questo articolo, spiegherò il mio modo preferito: con i gatti!

Supponiamo che voglia addestrare un classificatore gatto-non gatto da zero, ma ho solo una foto con cui lavorare:

Il gatto dell'autore, Huxley.

(Tutto ciò che segue è un’analogia di ciò che le persone fanno con i dati tabulari e i dati testuali, quindi si applica anche oltre ai dati delle immagini.)

Idealemente, avrò bisogno di un dataset composto da migliaia di foto di gatti e non gatti. Se ho una fotocamera e un accesso abbondante ai gatti, posso scattare un sacco di foto come quella che ho già, assicurandomi di ottenere esattamente il dataset che ho progettato:

Una foto che ho fatto in un parco di Istanbul.

Ma cosa succede se non ho una fotocamera e vivo senza gatti sulla luna? Potrei ottenere le immagini di cui ho bisogno da un fornitore, anche se dovrei fare attenzione poiché i dati ereditati sono più pericolosi dei dati primari.

Grazie, Pixabay, per essere un eccellente fornitore (gratuito) di foto di gatti.

Ma cosa succede se non c’è un fornitore che mi vende alcune foto di gatti? (Sì, finire le foto di gatti su internet è una situazione più da fantascienza che vivere sulla luna, ma pazientate con me.)

Bene, se non posso raccoglierle e non posso comprarle, allora dovrò crearle da solo. Ecco la mia creazione:

Il tuo autore è un vero Michelangelo.

Non va bene? Sì, disegnare non è mai stato il mio forte. Un altro modo per creare dati falsi è copiare i dati esistenti, anche se questo non sarà molto utile per fornire varietà istruttiva.

Questa approccio non inganna nessuno. Ho ancora effettivamente solo un datapoint.

Sarà come insegnare a uno studente umano dando loro lo stesso esempio più e più volte, quindi impareranno solo quella cosa. Se il mio dataset sono 30.000 copie di questa foto di Huxley…