Occupato? Questa è la tua guida rapida per aprire la scatola nera dei modelli di diffusione

Occupato? Guida rapida per aprire la scatola nera dei modelli di diffusione

Decodifica Diffusione Stabile: Allenare, Generare Nuove Immagini e Controllare Usando un Contesto Dato

Prompt: “Un disegno a pastello ad olio di un gatto divertente che dorme in una posizione strana” [Immagine dell'Autore — Generata usando DALL-E]

Se hai aperto il mio articolo, probabilmente hai utilizzato un modello di testo-immagine da servizi come DALL-E, Midjourney o Stability AI.

Bene, tutti quanti si basano su modelli di diffusione.

Anche se vuoi trattarli come una scatola nera magica, avere un’intuizione su come funzionano sotto il cofano ti aiuterà a generare arte migliore.

Questo articolo ha lo scopo di darti un’intuizione su come i modelli di diffusione generano nuove immagini, vengono addestrati su un nuovo dataset e vengono controllati in base a un contesto dato (ad esempio, testo, un’altra immagine, categorie, ecc.).

Non entreremo troppo nei dettagli tecnici ma ci concentreremo concettualmente sui componenti principali che rendono i modelli di diffusione funzionanti.

Indice

  1. Ottieni un’Intuizione su Come Funzionano i Modelli di Diffusione
  2. Come i Modelli di Diffusione Generano Nuove Immagini
  3. Guida Rapida su Come Allenare i Modelli di Diffusione
  4. Controllare i Modelli di Diffusione Stabili con un Contesto Dato

#1. Ottieni un’Intuizione su Come Funzionano i Modelli di Diffusione

Utilizzeremo un dataset di gatti come esempio.

Quindi, diciamo che vogliamo allenare un modello di diffusione stabile per generare nuovi gatti.

Poi, per:

Generare il dataset — aggiungi rumore gaussiano

Prendiamo ogni immagine del dataset e gradualmente aggiungiamo rumore gaussiano ad esse.

Ora, abbiamo molteplici immagini contenenti vari livelli di rumore per ogni immagine di gatto iniziale.

Allenare il modello — rimuovere il rumore

Il vero compito del modello è prendere un’immagine rumorosa e rimuovere il rumore da essa.

Quindi, durante l’allenamento del modello di diffusione:- prenderà un’immagine rumorosa come input- cercherà di rimuovere il rumore- la perdita viene calcolata tra l’immagine “pulita” e l’immagine originale non rumorosa