Come dovremmo archiviare le immagini AI? I ricercatori di Google propongono un metodo di compressione delle immagini utilizzando modelli generativi basati su punteggio

Google researchers propose a method to compress AI images using score-based generative models.

Un anno fa, generare immagini realistiche con l’AI era un sogno. Siamo rimasti impressionati nel vedere facce generate che assomigliano a quelle reali, nonostante la maggior parte delle uscite avesse tre occhi, due nasi, ecc. Tuttavia, le cose sono cambiate rapidamente con il rilascio dei modelli di diffusione. Oggi è difficile distinguere un’immagine generata dall’AI da una reale.

La capacità di generare immagini di alta qualità è una parte dell’equazione. Se volessimo utilizzarle correttamente, la compressione efficiente svolge un ruolo essenziale in compiti come la generazione di contenuti, la memorizzazione dei dati, la trasmissione e l’ottimizzazione della larghezza di banda. Tuttavia, la compressione delle immagini si è basata principalmente su metodi tradizionali come la codifica delle trasformate e le tecniche di quantizzazione, con una limitata esplorazione dei modelli generativi.

Nonostante il loro successo nella generazione di immagini, i modelli di diffusione e i modelli generativi basati su punteggio non sono ancora emersi come approcci leader per la compressione delle immagini, rimanendo indietro rispetto ai metodi basati su GAN. Spesso si comportano peggio o allo stesso livello degli approcci basati su GAN come HiFiC sulle immagini ad alta risoluzione. Anche i tentativi di riutilizzare modelli di generazione di testo-immagine per la compressione delle immagini hanno prodotto risultati insoddisfacenti, producendo ricostruzioni che si discostano dall’input originale o contengono artefatti indesiderati.

La discrepanza tra le prestazioni dei modelli generativi basati su punteggio nei compiti di generazione di immagini e il loro limitato successo nella compressione delle immagini solleva domande intriganti e stimola ulteriori indagini. È sorprendente che modelli capaci di generare immagini di alta qualità non siano stati in grado di superare le GAN nel compito specifico della compressione delle immagini. Questa discrepanza suggerisce che potrebbero esserci sfide uniche e considerazioni quando si applicano modelli generativi basati su punteggio a compiti di compressione, che richiedono approcci specializzati per sfruttarne appieno il potenziale.

Quindi sappiamo che c’è un potenziale nell’utilizzo di modelli generativi basati su punteggio nella compressione delle immagini. La domanda è, come può essere fatto? Passiamo alla risposta.

I ricercatori di Google hanno proposto un metodo che combina un autoencoder standard, ottimizzato per l’errore quadratico medio (MSE), con un processo di diffusione per recuperare e aggiungere dettagli fini scartati dall’autoencoder. Il tasso di bit per la codifica di un’immagine è determinato esclusivamente dall’autoencoder, poiché il processo di diffusione non richiede bit aggiuntivi. Mediante il perfezionamento dei modelli di diffusione specificamente per la compressione delle immagini, è dimostrato che possono superare diversi approcci generativi recenti in termini di qualità dell’immagine.

Il metodo proposto può preservare i dettagli molto meglio rispetto agli approcci di ultima generazione. Fonte: https://arxiv.org/pdf/2305.18231.pdf

Il metodo esplora due approcci strettamente correlati: i modelli di diffusione, che mostrano una prestazione impressionante ma richiedono un gran numero di passaggi di campionamento, e i flussi rettificati, che si comportano meglio quando vengono consentiti meno passaggi di campionamento.

L’approccio a due fasi consiste nell’incodificare prima l’immagine di input utilizzando l’autoencoder ottimizzato per l’MSE e quindi applicare il processo di diffusione o i flussi rettificati per migliorare il realismo della ricostruzione. Il modello di diffusione utilizza un programma di rumore che viene spostato nella direzione opposta rispetto ai modelli di generazione di testo-immagine, dando priorità ai dettagli rispetto alla struttura globale. D’altra parte, il modello di flusso rettificato sfrutta l’accoppiamento fornito dall’autoencoder per mappare direttamente le uscite dell’autoencoder in immagini non compresse.

Panoramica del modello HFD proposto. Fonte: https://arxiv.org/pdf/2305.18231.pdf

Inoltre, lo studio ha rivelato dettagli specifici che possono essere utili per future ricerche in questo campo. Ad esempio, è stato dimostrato che lo schema di rumore e la quantità di rumore iniettato durante la generazione delle immagini influenzano significativamente i risultati. Interessantemente, mentre i modelli di generazione di testo-immagine traggono beneficio da livelli di rumore più elevati durante l’addestramento su immagini ad alta risoluzione, si è scoperto che ridurre il rumore complessivo del processo di diffusione è vantaggioso per la compressione. Questo aggiustamento consente al modello di concentrarsi maggiormente sui dettagli fini, poiché i dettagli grossolani sono già adeguatamente catturati dalla ricostruzione dell’autocodificatore.