Incontra FreeU Una nuova tecnica di intelligenza artificiale per migliorare la qualità generativa senza ulteriori addestramenti o affinamenti

Incontra FreeU La nuova tecnica di intelligenza artificiale che migliora la qualità generativa senza ulteriori addestramenti o affinamenti

I modelli di diffusione probabilistica, una categoria all’avanguardia di modelli generativi, sono diventati un punto critico nel panorama della ricerca, in particolare per compiti legati alla visione artificiale. Diversamente da altre classi di modelli generativi, come l’Autoencoder Variazionale (VAE), le Reti Antagonistiche Generative (GAN) e gli approcci a quantizzazione vettoriale, i modelli di diffusione introducono un nuovo paradigma generativo. Questi modelli utilizzano una catena di Markov fissa per mappare lo spazio latente, facilitando mappe complesse che catturano le complessità strutturali latenti all’interno di un dataset. Recentemente, le loro impressionanti capacità generative, che vanno dal livello di dettaglio alla diversità degli esempi generati, hanno spinto importanti progressi in varie applicazioni di visione artificiale come la sintesi di immagini, la modifica di immagini, la traduzione da immagini a immagini e la generazione di testo-video.

I modelli di diffusione sono composti da due componenti principali: il processo di diffusione e il processo di denoising. Durante il processo di diffusione, il rumore gaussiano viene progressivamente incorporato nei dati di input, trasformandoli gradualmente in rumore gaussiano quasi puro. Al contrario, il processo di denoising mira a ripristinare i dati di input originali dal loro stato rumoroso utilizzando una sequenza di operazioni di diffusione inversa apprese. Tipicamente, viene utilizzato un U-Net per prevedere l’eliminazione del rumore in modo iterativo ad ogni passaggio di denoising. Le ricerche esistenti si concentrano principalmente sull’uso di U-Net di diffusione pre-addestrati per applicazioni successive, con una limitata esplorazione delle caratteristiche interne dell’U-Net di diffusione.

Uno studio congiunto dello S-Lab e del Nanyang Technological University si discosta dall’applicazione convenzionale dei modelli di diffusione investigando l’efficacia dell’U-Net di diffusione nel processo di denoising. Per ottenere una comprensione più approfondita del processo di denoising, i ricercatori introducono un cambiamento di paradigma verso il dominio di Fourier per osservare il processo di generazione dei modelli di diffusione, un’area di ricerca relativamente poco esplorata.

La figura sopra illustra il processo di denoising progressivo nella fila superiore, mostrando le immagini generate in successive iterazioni. Al contrario, le due righe seguenti presentano le informazioni associate al dominio spaziale delle basse e alte frequenze dopo la trasformazione di Fourier inversa, corrispondenti a ciascun rispettivo passaggio. Questa figura rivela una modulazione graduale dei componenti a basse frequenze, indicando un tasso di cambiamento ridotto, mentre i componenti ad alte frequenze mostrano dinamiche più pronunciate durante tutto il processo di denoising. Questi risultati possono essere intuitivamente spiegati: i componenti a basse frequenze rappresentano intrinsecamente la struttura e le caratteristiche globali di un’immagine, comprendendo layout globali e colori uniformi. Alterazioni drastiche a questi componenti sono generalmente inadatte nei processi di denoising in quanto possono modificare fondamentalmente l’essenza dell’immagine. D’altra parte, i componenti ad alte frequenze catturano cambiamenti rapidi nelle immagini, come bordi e texture, ed sono altamente sensibili al rumore. I processi di denoising devono rimuovere il rumore preservando questi dettagli intricati.

Tenendo conto di queste osservazioni sui componenti a basse e alte frequenze durante il denoising, l’indagine si estende per determinare le specifiche contribuzioni dell’architettura U-Net all’interno del framework di diffusione. Ad ogni stadio del decoder di U-Net, vengono combinati i skip features dalle connessioni skip e le caratteristiche del backbone. Lo studio rivela che il backbone principale di U-Net svolge un ruolo significativo nel denoising, mentre le connessioni skip introducono caratteristiche ad alte frequenze nel modulo decoder, aiutando nel recupero di informazioni semantiche dettagliate. Tuttavia, questa propagazione di caratteristiche ad alte frequenze può indebolire involontariamente le capacità di denoising intrinseche del backbone durante la fase di inferenza, portando potenzialmente alla generazione di dettagli anormali dell’immagine, come mostrato nella prima riga della Figura 1.

In base a questa scoperta, i ricercatori propongono un nuovo approccio chiamato “FreeU”, che può migliorare la qualità dei campioni generati senza richiedere ulteriori costi computazionali dal training o dal fine-tuning. L’overview del framework è riportata di seguito.

Durante la fase di inferenza, vengono introdotti due fattori di modulazione specializzati per bilanciare i contributi delle caratteristiche provenienti dalla struttura principale e dalle connessioni di salti dell’architettura U-Net. Il primo fattore, chiamato “fattori di caratteristiche di base”, è progettato per amplificare le mappe di caratteristiche della struttura principale, rafforzando così il processo di riduzione del rumore. Tuttavia, si è osservato che l’inclusione dei fattori di scala delle caratteristiche di base, pur apportando miglioramenti significativi, può occasionalmente portare a una sovrasmoothing indesiderata delle texture. Per affrontare questa preoccupazione, è stato introdotto il secondo fattore, “fattori di scala delle caratteristiche di salti”, per mitigare il problema della sovrasmoothing delle texture.

Il framework FreeU dimostra un’adattabilità senza soluzione di continuità quando integrato con modelli di diffusione esistenti, inclusi applicazioni come la generazione di testo-immagine e la generazione di testo-video. Una valutazione sperimentale esaustiva di questo approccio è stata condotta utilizzando modelli fondamentali come Stable Diffusion, DreamBooth, ReVersion, ModelScope e Rerender per confronti di benchmark. Quando FreeU è applicato durante la fase di inferenza, questi modelli mostrano un miglioramento notevole nella qualità degli output generati. La rappresentazione visiva nell’illustrazione sottostante fornisce prove dell’efficacia di FreeU nel migliorare significativamente sia i dettagli intricati che la fedeltà visiva complessiva delle immagini generate.

Questo era il riassunto di FreeU, una nuova tecnica di intelligenza artificiale che migliora la qualità degli output dei modelli generativi senza ulteriori allenamenti o ottimizzazioni. Se sei interessato e desideri saperne di più, ti preghiamo di consultare i link citati di seguito.