I ricercatori dell’Università Tsinghua propongono i modelli di consistenza latente (LCM) la nuova generazione di modelli AI generativi dopo i modelli di diffusione latenti (LDM).

La nuova generazione dei modelli AI generativi LCM, i modelli di consistenza latente, proposti dai ricercatori dell'Università Tsinghua, superando i modelli di diffusione latenti (LDM).

I modelli di coerenza latente (LCM) generano efficientemente immagini ad alta risoluzione mediante la previsione diretta di soluzioni ODE di flusso di probabilità aumentata nello spazio latente. Questo metodo elimina la necessità di iterazioni estese, riducendo significativamente la complessità computazionale e il tempo di generazione rispetto ai modelli esistenti. LCM eccellono nella generazione di testo-immagine, offrendo prestazioni all’avanguardia con un numero minimo di passaggi di inferenza, rappresentando quindi un importante avanzamento nella sintesi rapida e ad alta fedeltà delle immagini.

I modelli di diffusione (DM) hanno eccelso nella generazione di immagini offrendo stabilità e una migliore stima della verosimiglianza rispetto a VAE e GAN. I modelli di diffusione latente (LDM), compresi i modelli di diffusione stabile (SD), sono efficaci nella sintesi di testo-immagine ad alta risoluzione. I modelli di coerenza (CM) introducono la generazione in un solo passaggio per ottenere risultati più rapidi e di alta qualità e possono essere distillati da modelli di diffusione preaddestrati o funzionare in modo indipendente. LCM estende CM, prevedendo soluzioni ODE di flusso di probabilità aumentata per una sintesi rapida e ad alta fedeltà delle immagini. Sono state proposte varie tecniche, come i solver ODE e gli operatori neurali, per accelerare i DM.

I DM, come SD, eccellono nella generazione di immagini ma soffrono di tempi di generazione lenti. I ricercatori dell’Università di Tsinghua hanno introdotto i modelli di coerenza per accelerare il processo, ma necessitano di maggiori applicazioni. Il loro studio presenta i LCM, che prevedono soluzioni ODE di flusso di probabilità aumentata nello spazio latente, consentendo una sintesi rapida e di alta qualità delle immagini con pochi passaggi. I LCM raggiungono efficientemente una generazione di testo-immagine all’avanguardia, offrendo una soluzione promettente ai tempi di generazione lenti dei modelli di diffusione.

Il loro approccio presenta i LCM come efficienti nella sintesi di immagini ad alta risoluzione con pochi passaggi di inferenza. I LCM prevedono soluzioni ODE di flusso di probabilità aumentata nello spazio latente, riducendo la necessità di iterazioni estese e consentendo un campionamento rapido e di alta fedeltà. Possono essere distillati da modelli di diffusione guidati preaddestrati senza classificatori. La loro ricerca introduce il fine-tuning della coerenza latente (LCF) per l’adattamento del dataset personalizzato. I LCM dimostrano una generazione di testo-immagine all’avanguardia con un numero limitato di passaggi di inferenza sul dataset LAION-5B-Aesthetics.

LCM eccellono nella generazione di testo-immagine, mostrando una performance all’avanguardia quando valutati sul dataset LAION-5B-Aesthetics. Il loro metodo introduce LCF e ne dimostra l’efficacia su due dataset personalizzati: Pokemon e Simpsons. I LCM, quando sottoposti a fine-tuning con LCF, possono generare rapidamente immagini con stili unici in pochi passaggi, sottolineando l’efficacia del metodo nella sintesi personalizzata delle immagini.

In conclusione, i LCM offrono un potente metodo per la sintesi di immagini ad alta risoluzione con un’efficace generazione in pochi passaggi, ottenendo risultati all’avanguardia nella generazione di testo-immagine. I ricercatori introducono LCF per adattare i LCM a dataset di immagini personalizzati, producendo efficacemente immagini con stili personalizzati in pochi passaggi. Gli ampi esperimenti sul dataset LAION-5B-Aesthetics dimostrano le prestazioni superiori dei LCM, evidenziando il loro potenziale per diverse attività di generazione di immagini. Il futuro lavoro mira ad espandere le applicazioni e le capacità dei LCM in diversi domini di generazione di immagini.

Ricerche future potrebbero esplorare applicazioni più ampie dei LCM nella sintesi e manipolazione di immagini. Investigare i LCM nei domini della sintesi di video e immagini 3D offre potenziali possibilità. Combinare i LCM con modelli generativi come GAN o VAE potrebbe migliorarne la versatilità. Studi utente che confrontano le immagini generate dai LCM con i metodi all’avanguardia possono fornire spunti per il perfezionamento e il miglioramento dei modelli, valutando la qualità percettiva e il realismo.