I modelli di diffusione superano le GAN nella classificazione delle immagini questa ricerca sull’IA ha scoperto che i modelli di diffusione superano i metodi generativi-discriminativi comparabili come BigBiGAN per le attività di classificazione.

I modelli di diffusione superano le GAN nella classificazione delle immagini.

L’apprendimento unificato e autonomo di rappresentazioni visive è un compito cruciale ma difficile. Molti problemi di computer vision si suddividono in due categorie di base: discriminativi o generativi. Un modello che può assegnare etichette a singole immagini o sezioni di immagini viene addestrato attraverso l’apprendimento discriminativo delle rappresentazioni. Per utilizzare l’apprendimento generativo, si creerebbe un modello in grado di creare o modificare immagini e di svolgere operazioni correlate come il riempimento, la sovra-risoluzione, ecc. I modelli di apprendimento delle rappresentazioni unificate perseguono contemporaneamente entrambi gli obiettivi e il modello finale può discriminare e creare artefatti visivi unici. Questo tipo di apprendimento delle rappresentazioni unificate è difficile.

Uno dei primi metodi di deep learning che risolve contemporaneamente entrambe le famiglie di problemi è BigBiGAN. Tuttavia, le prestazioni di classificazione e generazione dei metodi più recenti superano quelle di BigBiGAN utilizzando modelli più specializzati. Oltre alle principali carenze di accuratezza e FID di BigBiGAN, ha anche un carico di addestramento considerevolmente più elevato rispetto ad altri approcci, è più lento e più grande rispetto a GAN comparabili a causa del suo encoder e costa di più rispetto agli approcci discriminativi basati su ResNet a causa della sua GAN. PatchVAE mira a migliorare le prestazioni di VAE per compiti di riconoscimento concentrandosi sull’apprendimento dei patch di livello medio. Purtroppo, i suoi miglioramenti nella classificazione sono ancora molto inferiori rispetto agli approcci supervisionati e le prestazioni nella produzione di immagini ne risentono notevolmente.

Ricerche recenti hanno compiuto notevoli progressi nel campo della generazione e della categorizzazione, sia con che senza supervisione. L’apprendimento unificato delle rappresentazioni auto-supervisionate deve ancora essere affrontato perché questa area deve ancora essere esplorata rispetto al numero di lavori sull’apprendimento delle rappresentazioni delle immagini auto-supervisionato. Alcuni ricercatori sostengono che i modelli discriminativi e generativi variano intrinsecamente e che le rappresentazioni acquisite da uno non sono appropriate per l’altro a causa di difetti precedenti. I modelli generativi richiedono intrinsecamente rappresentazioni che catturino caratteristiche di basso livello, pixel e texture per una ricostruzione e una creazione di alta qualità.

D’altra parte, i modelli discriminativi dipendono principalmente dalle informazioni di alto livello che distinguono gli oggetti a un livello grossolano basandosi non su valori di pixel specifici ma piuttosto sulla semantica del contenuto dell’immagine. Nonostante queste supposizioni, indicano che le tecniche attuali come MAE e MAGE, in cui il modello deve tendere alle informazioni di pixel di basso livello ma apprende modelli che sono anche eccellenti per compiti di classificazione, supportano il successo iniziale di BigBiGAN. I moderni modelli di diffusione hanno avuto anche molto successo nel raggiungimento degli obiettivi di generazione. Il loro potenziale di categorizzazione, tuttavia, è in gran parte inesplorato e non studiato. I ricercatori dell’Università di Maryland sostengono che invece di creare un apprendista di rappresentazione unificato da zero, i modelli di diffusione all’avanguardia, potenti modelli di creazione di immagini, hanno già forti capacità emergenti di classificazione.

Figura 1: Un riassunto dell’approccio e dei risultati. Suggeriscono che i modelli di diffusione possono apprendere rappresentazioni unificate delle immagini auto-supervisionate, ottenendo risultati eccellenti sia per la generazione che per la classificazione. Per quanto riguarda il numero di blocchi U-Net e il passo temporale del rumore di diffusione, indaghiamo sulla procedura di estrazione delle caratteristiche. Indaghiamo anche su diverse dimensioni di pooling delle mappe di caratteristiche. Esaminiamo una serie di architetture di classificazione semplici, come lineari (A), perceptron multistrato (B), CNN (C) e head basati sull’attenzione (D). I risultati di tali studi sono visualizzati a destra per le classificazioni basate su feature congelate per ImageNet-50, calcolate al numero di blocco 24 e al passo temporale del rumore 90.

La figura 1 mostra il loro notevole successo su queste due sfide fondamentalmente diverse. Rispetto a BigBiGAN, la loro strategia di utilizzo dei modelli di diffusione produce prestazioni di creazione di immagini significativamente superiori e prestazioni di categorizzazione delle immagini migliori. Di conseguenza, dimostrano che i modelli di diffusione sono già molto vicini ai migliori apprendisti di rappresentazione unificata delle immagini auto-supervisionate in termini di ottimizzazione simultanea della classificazione e della generazione. La selezione delle caratteristiche nei modelli di diffusione è una delle loro difficoltà chiave. È molto difficile scegliere i passi del rumore e il blocco delle caratteristiche. Pertanto, esaminano l’applicabilità dei vari aspetti e li confrontano. Queste mappe di caratteristiche possono anche essere piuttosto grandi per quanto riguarda la profondità dei canali e la risoluzione spaziale.

Offrono anche diversi classificatori per sostituire il livello di classificazione lineare al fine di risolvere questo problema, che possono migliorare i risultati di classificazione senza compromettere le prestazioni di generazione o aggiungere più parametri. Dimostrano che i modelli di diffusione possono essere utilizzati per problemi di classificazione senza modificare il pre-training di diffusione poiché si comportano in modo eccellente come classificatori con un’estrazione di caratteristiche adeguata. Di conseguenza, il loro metodo può essere utilizzato per qualsiasi modello di diffusione pre-addestrato e può beneficiare quindi di miglioramenti futuri delle dimensioni, della velocità e della qualità delle immagini di questi modelli. Viene esaminata anche l’efficacia delle caratteristiche di diffusione per il trasferimento dell’apprendimento su compiti successivi e le caratteristiche sono confrontate direttamente con quelle di altri approcci.

Selezionano la classificazione visiva a grana fine (FGVC) per i compiti successivi, che richiede l’uso di caratteristiche non supervisionate a causa della mancanza di dati per molti dataset FGVC. Poiché un approccio basato sulla diffusione non si basa sulle tipologie di invarianze del colore che altri studi hanno dimostrato che limiterebbero gli approcci non supervisionati nel contesto del trasferimento FGVC, questo compito è particolarmente pertinente utilizzando un approccio basato sulla diffusione. Utilizzano il noto allineamento del kernel centrato (CKA) per confrontare le caratteristiche, il che consente un’indagine approfondita della significatività della selezione delle caratteristiche e di quanto siano confrontabili le caratteristiche del modello di diffusione con quelle dei ResNet e ViTs.

Le loro contribuzioni, in breve, sono le seguenti:

• Con 26,21 FID (-12,37 rispetto a BigBiGAN) per la formazione di immagini incondizionata e un’accuratezza del 61,95% (+1,15% rispetto a BigBiGAN) per la prova lineare su ImageNet, dimostrano che i modelli di diffusione possono essere utilizzati come apprenditori di rappresentazione unificati.

• Forniscono linee guida di analisi e distillazione per ottenere le rappresentazioni di caratteristiche più utilizzabili dal processo di diffusione.

• Per l’utilizzo di rappresentazioni di diffusione in uno scenario di classificazione, confrontano i classificatori basati sull’attenzione, le CNN e gli MLP specializzati con la prova lineare standard.

• Utilizzando molti dataset ben noti, esaminano le caratteristiche di trasferimento dell’apprendimento dei modelli di diffusione con la categorizzazione visiva a grana fine (FGVC) come compito successivo.

• Utilizzano CKA per confrontare le numerose rappresentazioni apprese dai modelli di diffusione con architetture e tecniche di pre-addestramento alternative, nonché con diversi strati e caratteristiche di diffusione.