Google e i ricercatori del MIT presentano StableRep rivoluzionando l’addestramento dell’IA con immagini sintetiche per un’apprendimento automatico migliorato
Google e i ricercatori del MIT presentano StableRep la rivoluzione nell'addestramento dell'intelligenza artificiale attraverso immagini sintetiche per un apprendimento automatico raffinato
I ricercatori hanno esplorato il potenziale dell’utilizzo di immagini sintetiche generate da modelli di testo-immagine per apprendere rappresentazioni visive e aprire la strada a un apprendimento automatico più efficiente e privo di pregiudizi. Questo nuovo studio dei ricercatori del MIT si concentra sulla Diffusione Stabile e dimostra che l’addestramento di metodi di auto-supervisione su immagini sintetiche può eguagliare o addirittura superare le prestazioni delle controparti di immagini reali quando il modello generativo è configurato correttamente. L’approccio proposto, chiamato StableRep, introduce un metodo di apprendimento contrastivo a molti positivi trattando le immagini multiple generate dalla stessa indicazione di testo come positivi l’una per l’altra. StableRep viene addestrato esclusivamente su immagini sintetiche e supera metodi all’avanguardia come SimCLR e CLIP su dataset di grandi dimensioni, raggiungendo addirittura una migliore precisione rispetto a CLIP addestrato con 50 milioni di immagini reali quando accoppiato con la supervisione del linguaggio.
L’approccio proposto da StableRep introduce un nuovo metodo per l’apprendimento delle rappresentazioni promuovendo l’invarianza intra-caption. Considerando le immagini multiple generate dalla stessa indicazione di testo come positivi l’una per l’altra, StableRep utilizza una perdita contrastiva a molti positivi. I risultati mostrano che StableRep raggiunge una notevole precisione lineare su ImageNet, superando altri metodi di auto-supervisione come SimCLR e CLIP. Il successo dell’approccio è attribuito alla capacità di esercitare un maggiore controllo sul campionamento dei dati sintetici, sfruttando fattori come la scala di guida in Stable Diffusion e gli stimoli di testo. Inoltre, i modelli generativi hanno il potenziale per generalizzare oltre i dati di addestramento, fornendo un più ricco set di addestramento sintetico rispetto ai soli dati reali.
In conclusione, la ricerca dimostra l’efficacia sorprendente dell’addestramento di metodi di auto-supervisione su immagini sintetiche generate da Stable Diffusion. L’approccio StableRep, con il suo metodo di apprendimento contrastivo a molti positivi, mostra prestazioni superiori nell’apprendimento delle rappresentazioni rispetto a metodi all’avanguardia che utilizzano immagini reali. Lo studio apre possibilità per semplificare la raccolta di dati attraverso modelli generativi di testo-immagine, presentando un’alternativa economica all’acquisizione di dataset ampi e diversificati. Tuttavia, sfide come l’incongruenza semantica e i pregiudizi nei dati sintetici devono essere affrontate, e l’impatto potenziale dell’utilizzo di dati web non curati per l’addestramento di modelli generativi dovrebbe essere preso in considerazione.
- Questo articolo su AI propone una nuova strategia di pre-formazione chiamata Privacy-Preserving MAE-Align per combinare efficacemente dati sintetici e dati reali rimossi dagli umani.
- Incontra One-2-3-45++ un metodo innovativo di intelligenza artificiale che trasforma un’immagine singola in una mesh 3D dettagliata e con texture in approssimativamente un minuto.
- Incontra LEO un rivoluzionario agente multimodale incorporato per l’interazione avanzata con il mondo 3D e la risoluzione di compiti.