Questa AI Paper introduce LCM-LoRA rivoluzionando le attività generative di testo-immagine con modelli avanzati di consistenza latente e distillazione LoRA

LCM-LoRA La Rivoluzione delle Attività Generative di Testo-Immagine con Modelli Avanzati di Consistenza Latente e Distillazione LoRA

I modelli di diffusione latente sono modelli generativi utilizzati nell’apprendimento automatico, particolarmente nella modellazione probabilistica. Questi modelli mirano a catturare la struttura sottostante o le variabili latenti di un dataset, spesso focalizzandosi sulla generazione di campioni realistici o sulla formulazione di previsioni. Questi descrivono l’evoluzione di un sistema nel tempo. Questo può fare riferimento alla trasformazione di un insieme di variabili casuali da una distribuzione iniziale a una distribuzione desiderata attraverso una serie di passaggi o processi di diffusione.

Questi modelli si basano su metodi di risoluzione delle EDO. Nonostante riducano il numero di passaggi di inferenza necessari, richiedono comunque un notevole overhead computazionale, specialmente quando si incorpora la guida senza classificatore. I metodi di distillazione come Guided-Distill sono promettenti ma devono essere migliorati a causa dei loro intensi requisiti computazionali.

Per affrontare tali problemi, è emersa la necessità di modelli di coerenza latente. Il loro approccio prevede un processo di diffusione inversa, trattandolo come un problema di EDO di flusso di probabilità aumentata. Predicono in modo innovativo la soluzione nello spazio latente e bypassano la necessità di soluzioni iterative mediante risolutori numerici di EDO. Ciò richiede solo da 1 a 4 passaggi di inferenza nella notevole sintesi di immagini ad alta risoluzione.

I ricercatori dell’Università Tsinghua estendono il potenziale di LCM applicando la distillazione LoRA ai modelli di diffusione stabile, tra cui SD-V1.5, SSD-1B e SDXL. Hanno ampliato il campo di applicazione di LCM a modelli più grandi con un consumo di memoria significativamente inferiore, raggiungendo una qualità superiore nella generazione di immagini. Per dataset specializzati come quelli per anime, foto realistiche o immagini fantasy, sono necessari passaggi aggiuntivi, come l’utilizzo della distillazione della coerenza latente (LCD) per distillare un LDM preaddestrato in un LCM o per raffinare direttamente un LCM utilizzando LCF. Tuttavia, è possibile ottenere inferenza rapida e senza addestramento su dataset personalizzati?

Il team introduce LCM-LoRA come modulo di accelerazione universale privo di addestramento che può essere inserito direttamente in vari modelli addestrati fine-tuning di Diffusione Stabile per rispondere a questa domanda. All’interno del framework di LoRA, i parametri LoRA risultanti possono essere integrati in modo trasparente con i parametri originali del modello. Il team ha dimostrato la fattibilità dell’utilizzo di LoRA per il processo di distillazione dei modelli di coerenza latente (LCM). I parametri LCM-LoRA possono essere combinati direttamente con altri parametri LoRA e addestrati in dataset di stili particolari. Ciò consentirà di generare immagini in stili specifici con un numero minimo di passaggi di campionamento senza la necessità di ulteriori addestramenti. Rappresentano quindi un acceleratore universalmente applicabile per varie attività di generazione di immagini.

Questo approccio innovativo riduce significativamente la necessità di passaggi iterativi, consentendo la rapida generazione di immagini ad alta fedeltà da input di testo e stabilendo un nuovo standard per le prestazioni all’avanguardia. LoRA riduce in modo significativo il volume di parametri da modificare, migliorando così l’efficienza computazionale e consentendo il perfezionamento del modello con un quantitativo di dati considerevolmente inferiore.