Stability AI presenta SDXL Turbo un modello di generazione testo-immagine in tempo reale.

Stability AI presenta SDXL Turbo un modello di generazione testo-immagine in tempo reale.

Stability AI introduce SDXL Turbo, che rappresenta un notevole avanzamento nella sintesi testo-immagine, grazie a un innovativo metodo di distillazione noto come Adversarial Diffusion Distillation (ADD). Questa scoperta consente al modello di generare rapidamente output di immagini ad alta fedeltà, rivoluzionando l’approccio alla conversione in tempo reale del testo in immagini.

SDXL Turbo, un’evoluzione del precedente SDXL 1.0, introduce ADD, una tecnica di distillazione che unisce l’addestramento avversario e la distillazione dei punteggi. Questo approccio innovativo consente al modello di generare output di testo-immagine in tempo reale con una fedeltà senza pari, mantenendo la qualità riducendo drasticamente il numero di passaggi richiesti da 50 a uno solo. Per una comprensione approfondita delle complessità tecniche, l’articolo di ricerca approfondisce i dettagli di questa innovativa tecnica di distillazione.

In particolare, ADD di SDXL Turbo offre diversi vantaggi chiave simili alle reti generative avversarie (GAN), come la sintesi di immagini in un solo passaggio, evitando artefatti comuni e sfocature osservate in altre metodologie di distillazione. L’articolo elenca i dettagli di questa nuova tecnica di distillazione, evidenziando il suo impatto sulla generazione di immagini in tempo reale.

Le valutazioni delle prestazioni condotte su diverse varianti di modelli di diffusione – StyleGAN-T++, OpenMUSE, IF-XL, SDXL e LCM-XL – mettono in evidenza la superiorità di SDXL Turbo. Nei test ciechi che valutano la fedeltà ai prompt e la qualità dell’immagine, SDXL Turbo ha superato una configurazione LCM-XL a 4 passaggi con un solo passaggio. Ha persino superato una configurazione SDXL a 50 passaggi con solo quattro passaggi. Questi risultati accentuano la straordinaria performance di SDXL Turbo, superando i modelli multi-passaggi all’avanguardia con una richiesta computazionale significativamente ridotta e preservando una qualità superiore dell’immagine.

Inoltre, la velocità di inferenza raggiunta da SDXL Turbo è degna di nota. Su una scheda A100, il modello genera un’immagine 512×512 in soli 207ms (codifica del prompt + un singolo passaggio di denoising + decodifica, fp16), con solo 67ms attribuiti a una singola valutazione in avanti di UNet.

Per sperimentare di persona le capacità di SDXL Turbo, gli utenti possono esplorare la generazione di immagini in tempo reale attraverso Clipdrop, la piattaforma di editing delle immagini. La dimostrazione beta mostra la potenza di SDXL Turbo nel trasformare prompt di testo in straordinari risultati visivi. Clipdrop è accessibile attraverso la maggior parte dei browser e offre una prova gratuita per esplorare le capacità all’avanguardia di SDXL Turbo.