Incontra DeepCache Un algoritmo di accelerazione semplice ed efficace per la compressione dinamica dei modelli di diffusione durante l’esecuzione

Incontra DeepCache Un algoritmo di compressione dinamica efficace per i modelli di diffusione durante l'esecuzione

I progressi nell’intelligenza artificiale (IA) e nell’apprendimento profondo hanno portato a una grande trasformazione nel modo in cui gli esseri umani interagiscono con i computer. Con l’introduzione dei modelli di diffusione, la modellazione generativa ha dimostrato capacità notevoli in diverse applicazioni, tra cui generazione di testi, generazione di immagini, sintesi audio e produzione di video.

Nonostante i modelli di diffusione mostrino prestazioni superiori, questi modelli hanno frequentemente costi computazionali elevati, che sono principalmente legati alle dimensioni ingombranti del modello e alla procedura sequenziale di denoising. Questi modelli hanno una velocità di inferenza molto lenta, a cui i ricercatori hanno cercato di far fronte riducendo il numero di passaggi di campionamento e abbassando l’overhead di inferenza del modello per ogni passaggio mediante tecniche come la potatura del modello, la distillazione e la quantizzazione.

I metodi convenzionali per la compressione dei modelli di diffusione di solito richiedono una grande quantità di ritraining, il che comporta difficoltà pratiche ed economiche. Per superare questi problemi, un team di ricercatori ha introdotto DeepCache, un nuovo e unico paradigma senza ritraining che ottimizza l’architettura dei modelli di diffusione per accelerare la diffusione.

DeepCache sfrutta la ridondanza temporale intrinseca alle fasi di denoising successive dei modelli di diffusione. La ragione di questa ridondanza è che alcune caratteristiche si ripetono in ogni passaggio di denoising successivo. Riduce notevolmente i calcoli duplicati introducendo un metodo di caching e recupero per queste proprietà. Il team ha condiviso che questo approccio si basa sulla proprietà U-Net, che consente di riutilizzare le caratteristiche di alto livello mentre si aggiornano in modo efficace ed economico le caratteristiche di basso livello.

L’approccio creativo di DeepCache produce un fattore di accelerazione significativo del 2,3× per Stable Diffusion v1.5 con solo una leggera diminuzione del punteggio CLIP del 0,05. Ha anche dimostrato un impressionante incremento di velocità del 4,1× per LDM-4-G, anche se con una perdita di 0,22 in FID su ImageNet.

Il team ha valutato DeepCache e i confronti sperimentali hanno dimostrato che DeepCache funziona meglio delle attuali tecniche di potatura e distillazione, che di solito richiedono ritraining. È stato dimostrato che è anche compatibile con i metodi di campionamento esistenti. Ha mostrato prestazioni simili, o leggermente migliori, rispetto a DDIM o PLMS alla stessa velocità di produzione e massimizza quindi l’efficienza senza sacrificare la qualità dei risultati prodotti.

I ricercatori hanno riassunto le principali contribuzioni come segue.

  1. DeepCache funziona bene con gli attuali campionatori veloci, dimostrando la possibilità di raggiungere capacità di generazione simili o addirittura migliori.
  1. Migliora la velocità di generazione delle immagini senza la necessità di ulteriori allenamenti mediante la compressione dinamica dei modelli di diffusione durante l’esecuzione.
  1. Utilizzando caratteristiche cacheabili, DeepCache riduce i calcoli duplicati utilizzando la consistenza temporale delle caratteristiche di alto livello.
  1. DeepCache migliora la flessibilità del caching delle caratteristiche mediante l’introduzione di una tecnica personalizzata per intervalli di caching estesi.
  1. DeepCache mostra maggior efficacia in modelli DDPM, LDM e Stable Diffusion quando testato su CIFAR, LSUN-Bedroom/Churches, ImageNet, COCO2017 e PartiPrompt.
  1. DeepCache ha prestazioni migliori rispetto agli algoritmi di potatura e distillazione che richiedono ritraining, mantenendo un’efficacia superiore sotto il

In conclusione, DeepCache mostra sicuramente un grande potenziale come acceleratore di modelli di diffusione, fornendo una valida ed economica alternativa alle tecniche di compressione convenzionali.