All’interno di SDXL 1.0 Stabilità AI Nuovo Super Modello di Testo-immagine

In SDXL 1.0, AI Stability New Text-Image Super Model

La nuova versione rappresenta un miglioramento significativo rispetto alle versioni precedenti e si allinea ai modelli all’avanguardia.

Image Credit: Stability AI

Recentemente ho avviato una newsletter educativa incentrata sull’IA, che conta già oltre 160.000 abbonati. TheSequence è una newsletter orientata all’IA senza fronzoli (cioè senza esagerazioni, senza notizie, ecc.) che richiede 5 minuti di lettura. L’obiettivo è tenervi aggiornati su progetti di apprendimento automatico, articoli di ricerca e concetti. Provate a iscrivervi qui di seguito:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per rimanere aggiornati sugli sviluppi nell’apprendimento automatico, intelligenza artificiale e dati…

thesequence.substack.com

Stability AI è stata al centro della rivoluzione del testo-immagine con il rilascio della famiglia di modelli Stable Diffusion. Negli ultimi mesi, abbiamo assistito a una serie di progressi nelle aree di ricerca legate ai modelli testo-immagine, come la classificazione 3D, l’editing immagine controllabile, la personalizzazione dell’immagine, l’aumento dei dati sintetici, la prototipazione dell’interfaccia utente grafica e molte altre.

L’incorporazione di alcuni di questi progressi ha portato Stability a migliorare gradualmente Stable Diffusion. L’ultimo risultato di questo lavoro è stato il rilascio di SDXL, un modello di diffusione latente molto avanzato progettato per la sintesi testo-immagine. Con questo rilascio, SDXL è ora il modello di generazione testo-immagine all’avanguardia di Stability AI.

SDXL è ora disponibile tramite ClipDrop, GitHub o la piattaforma di Stability AI.

Andiamo nei dettagli.

L’architettura di SDXL

A differenza delle versioni precedenti di Stable Diffusion, SDXL incorpora un backbone UNet significativamente più grande con tre volte più parametri, principalmente a causa di un numero maggiore di blocchi di attenzione e di un contesto di attenzione incrociata più ampio, reso possibile dall’inclusione di un secondo codificatore di testo. Vengono introdotte nuove modalità di condizionamento e SDXL viene addestrato su diverse proporzioni di aspetto. Per migliorare ulteriormente la fedeltà visiva dei campioni generati, viene introdotto un modello di raffinamento che utilizza una tecnica di trasformazione immagine-immagine post-hoc.