Su cosa ti sei alimentato? Questo modello di intelligenza artificiale può estrarre dati di addestramento dai modelli di diffusione

Da dove hai tratto i dati di addestramento? Questo modello di intelligenza artificiale può estrarli dai modelli di diffusione.

I modelli di diffusione sono diventati una parte fondamentale del dominio dell’AI nel 2022. Abbiamo visto immagini fotorealistiche generate da essi, e continuano a migliorare sempre di più. Il successo dei modelli di diffusione può essere in gran parte attribuito alla Diffusione Stabile, che ha gettato le basi per le tecniche successive. Non è passato molto tempo prima che i modelli di diffusione diventassero il metodo preferito per generare immagini.

I modelli di diffusione, noti anche come modelli di diffusione del rumore, appartengono a una classe di reti neurali generative. Iniziano selezionando rumore dalla distribuzione di addestramento e lo raffinano gradualmente fino a ottenere un’immagine visivamente piacevole. Questo processo graduale di rimozione del rumore consente loro di essere più facili da scalare e controllare. Inoltre, di solito producono campioni di qualità superiore rispetto a approcci precedenti come le reti generative avversariali (GAN).

La capacità di generazione di immagini dei modelli di diffusione è considerata diversa rispetto agli approcci precedenti. A differenza dei modelli di generazione di immagini su larga scala precedenti, che erano suscettibili all’overfitting e potevano generare immagini che assomigliavano molto ai campioni di addestramento, si ritiene che i modelli di diffusione producano immagini significativamente diverse da quelle presenti nell’insieme di addestramento. Questa caratteristica ha reso i modelli di diffusione uno strumento promettente per i ricercatori che hanno bisogno di proteggere l’identità delle persone o le informazioni sensibili nelle immagini di addestramento. Generando immagini nuove che si discostano dall’insieme di dati originale, i modelli di diffusione offrono un modo per preservare la privacy senza sacrificare la qualità dell’output generato.

Ma è vero? I modelli di diffusione non memorizzano davvero le immagini di addestramento? Non è possibile utilizzarli per accedere ai campioni del loro insieme di addestramento? Possiamo davvero fidarci di loro per proteggere la privacy dei campioni di addestramento? I ricercatori si sono posti queste domande e hanno condotto uno studio per dimostrarci che i modelli di diffusione memorizzano effettivamente i dati di addestramento.

Esempio di campione di addestramento memorizzato dai modelli di diffusione. Fonte: https://arxiv.org/pdf/2301.13188.pdf

È possibile rigenerare campioni presenti nei dati di addestramento dei modelli di diffusione all’avanguardia, anche se non è semplice. In primo luogo, certi campioni di addestramento sono più facili da estrarre, specialmente quelli duplicati. Gli autori utilizzano questa proprietà per estrarre campioni di addestramento da Diffusione Stabile. Prima identificano immagini quasi duplicate nell’insieme di addestramento. Ovviamente, effettuare questa operazione manualmente non è fattibile dato che ci sono circa 160 milioni di immagini nell’insieme di addestramento di Diffusione Stabile. Invece, incorporano le immagini utilizzando CLIP e quindi confrontano le immagini in questo spazio di bassa dimensione. Se gli incorporamenti di CLIP hanno una somiglianza cosinusoidale elevata, queste didascalie vengono utilizzate come input per l’attacco di estrazione.

Esempio di immagini di addestramento estratte da Diffusione Stabile. Fonte: https://arxiv.org/pdf/2301.13188.pdf

Una volta ottenuti possibili input di testo per l’attacco, il passo successivo è generare molti campioni, 500 in questo caso, utilizzando lo stesso input per verificare se vi è una memorizzazione. Queste 500 immagini vengono generate utilizzando lo stesso input, ma appaiono tutte diverse a causa del seme casuale. Quindi, collegano ogni immagine l’una all’altra misurando la distanza di similarità e costruendo un grafo utilizzando queste connessioni. Se vedono un accumulo in una certa posizione in questo grafo, ad esempio più di 10 immagini collegate a una singola immagine, si assume che quella immagine centrale sia una memorizzazione. Quando hanno applicato questo approccio a Diffusione Stabile, sono riusciti a generare campioni quasi identici a quelli presenti nell’insieme di addestramento.

Hanno effettuato attacchi sperimentali su modelli di diffusione all’avanguardia e hanno fatto interessanti osservazioni. I modelli di diffusione all’avanguardia memorizzano più informazioni rispetto alle GAN comparabili e i modelli di diffusione più potenti memorizzano più informazioni rispetto a quelli più deboli. Questo suggerisce che la vulnerabilità dei modelli di generazione di immagini generative potrebbe aumentare nel tempo.