Occupato? Questa è la tua guida rapida per aprire la scatola nera dei modelli di diffusione
Occupato? Guida rapida per aprire la scatola nera dei modelli di diffusione
Decodifica Diffusione Stabile: Allenare, Generare Nuove Immagini e Controllare Usando un Contesto Dato
![Prompt: “Un disegno a pastello ad olio di un gatto divertente che dorme in una posizione strana” [Immagine dell'Autore — Generata usando DALL-E]](https://miro.medium.com/v2/resize:fit:640/format:webp/1*Yfj1YFKo4u9q_I2OWE0ufQ.png)
Se hai aperto il mio articolo, probabilmente hai utilizzato un modello di testo-immagine da servizi come DALL-E, Midjourney o Stability AI.
Bene, tutti quanti si basano su modelli di diffusione.
Anche se vuoi trattarli come una scatola nera magica, avere un’intuizione su come funzionano sotto il cofano ti aiuterà a generare arte migliore.
Questo articolo ha lo scopo di darti un’intuizione su come i modelli di diffusione generano nuove immagini, vengono addestrati su un nuovo dataset e vengono controllati in base a un contesto dato (ad esempio, testo, un’altra immagine, categorie, ecc.).
- Apprendere nuove competenze di Data Science, nel modo giusto
- Trasformatori di Diffusione (DiTs) per un’Innovazione Architettonica senza precedenti Trasformare la Generazione di Immagini con Modelli di Diffusione basati su Transformer
- LangChain + Streamlit + Llama Portare l’IA conversazionale sulla tua macchina locale
Non entreremo troppo nei dettagli tecnici ma ci concentreremo concettualmente sui componenti principali che rendono i modelli di diffusione funzionanti.
Indice
- Ottieni un’Intuizione su Come Funzionano i Modelli di Diffusione
- Come i Modelli di Diffusione Generano Nuove Immagini
- Guida Rapida su Come Allenare i Modelli di Diffusione
- Controllare i Modelli di Diffusione Stabili con un Contesto Dato
#1. Ottieni un’Intuizione su Come Funzionano i Modelli di Diffusione
Utilizzeremo un dataset di gatti come esempio.
Quindi, diciamo che vogliamo allenare un modello di diffusione stabile per generare nuovi gatti.
Poi, per:
Generare il dataset — aggiungi rumore gaussiano
Prendiamo ogni immagine del dataset e gradualmente aggiungiamo rumore gaussiano ad esse.
Ora, abbiamo molteplici immagini contenenti vari livelli di rumore per ogni immagine di gatto iniziale.
Allenare il modello — rimuovere il rumore
Il vero compito del modello è prendere un’immagine rumorosa e rimuovere il rumore da essa.
Quindi, durante l’allenamento del modello di diffusione:- prenderà un’immagine rumorosa come input- cercherà di rimuovere il rumore- la perdita viene calcolata tra l’immagine “pulita” e l’immagine originale non rumorosa