3 Modi per Generare Volti Iper-Realistici Utilizzando la Diffusione Stabile

3 Modelli per la Creazione di Volti Iper-Realistici con l'Uso di Diffusione Stabile

 

Ti sei mai chiesto come le persone generano volti iperrealistici utilizzando la generazione di immagini AI, mentre i tuoi tentativi finiscono per essere pieni di errori e artefatti che li rendono ovviamente falsi? Hai provato a modificare il prompt e le impostazioni, ma non sembri in grado di raggiungere la stessa qualità che vedi negli altri. Cosa stai facendo di sbagliato?

In questo post, ti guiderò attraverso 3 tecniche chiave per iniziare a generare volti umani iperrealistici utilizzando Stable Diffusion. Prima, copriremo i fondamenti dell’elaborazione del prompt per aiutarti a generare immagini utilizzando il modello di base. Successivamente, esploreremo come l’upgrade al modello Stable Diffusion XL possa migliorare significativamente la qualità dell’immagine attraverso un numero maggiore di parametri e un addestramento più approfondito. Infine, ti presenterò un modello personalizzato sintonizzato specificamente per la generazione di ritratti di alta qualità.

 

1. Elaborazione del prompt

 

Per prima cosa, impareremo a scrivere prompt positivi e negativi per generare volti realistici. Utilizzeremo la demo Stable Diffusion versione 2.1 disponibile su Hugging Face Spaces. È gratuita e puoi iniziare senza impostare niente. 

Link: hf.co/spaces/stabilityai/stable-diffusion

Quando crei un prompt positivo, assicurati di includere tutti i dettagli necessari e lo stile dell’immagine. In questo caso, vogliamo generare un’immagine di una giovane donna che cammina per strada. Utilizzeremo un prompt negativo generico, ma puoi aggiungere parole chiave aggiuntive per evitare errori ripetitivi nell’immagine.

Prompt positivo: “Una giovane donna di circa 25 anni, che cammina per strada, che guarda direttamente in macchina fotografica, espressione sicura e amichevole, abbigliamento casual moderno e di tendenza, sfondo urbano di una scena di strada, luce di una giornata luminosa, colori vivaci”

Prompt negativo: “deforme, brutto, cattivo, immaturo, cartone animato, anime, 3d, pittura, bianco e nero, pittura, illustrazione, qualità peggiore, bassa qualità”

  

Abbiamo fatto un buon inizio. Le immagini sono accurate, ma la qualità potrebbe essere migliore. Puoi sperimentare con i prompt, ma questo è il massimo che puoi ottenere dal modello di base. 

 

2. Stable Diffusion XL

 

Utilizzeremo il modello Stable Diffusion XL (SDXL) per generare immagini di alta qualità. Questo viene realizzato generando il latente utilizzando il modello di base e poi elaborandolo utilizzando un raffinatore per generare immagini dettagliate e precise.

Link: hf.co/spaces/hysts/SD-XL

Prima di generare le immagini, scorri verso il basso e apri le “Opzioni avanzate”. Aggiungeremo un prompt negativo, imposteremo il seed e applicheremo un raffinatore per ottenere la migliore qualità dell’immagine.

  

Quindi, scriveremo lo stesso prompt di prima con una piccola modifica. Invece di una giovane donna generica, genereremo l’immagine di una giovane donna indiana.

  

Questo è un miglioramento significativo. Le caratteristiche del viso sono perfette. Proveremo a generare altre etnie per verificare eventuali pregiudizi e confrontare i risultati.

  

Abbiamo ottenuto volti realistici, ma tutte le immagini hanno i filtri di Instagram. Di solito, la pelle non è così liscia nella vita reale. Ha acne, segni, lentiggini e rughe. 

 

3. CivitAI: RealVisXL V2.0

 

In questa parte, genereremo volti dettagliati con segni e pelle realistica. Per fare ciò, utilizzeremo il modello personalizzato di CivitAI (RealVisXL V2.0) che è stato ottimizzato per ritratti di alta qualità.

Link: civitai.com/models/139562/realvisxl-v20

Puoi utilizzare il modello online cliccando sul pulsante “Crea” oppure scaricalo per utilizzarlo localmente utilizzando Stable Diffusion WebUI.

Prima di tutto, scarica il modello e sposta il file nella directory del modello Stable Diffusion WebUI: C:\WebUI\webui\models\Stable-diffusion.

Per visualizzare il modello su WebUI, devi premere il pulsante di aggiornamento e poi selezionare il checkpoint del modello “realvisxl20…”.

Inizieremo scrivendo gli stessi prompt positivi e negativi e genereremo un’immagine di alta qualità 1024X1024.

L’immagine sembra perfetta. Per sfruttare appieno il modello personalizzato, dobbiamo cambiare il nostro prompt.

I nuovi prompt positivi e negativi possono essere ottenuti scorrendo la pagina del modello e cliccando sull’immagine realistica che ti piace. Le immagini su CivitAI sono fornite con prompt positivi e negativi e impostazioni avanzate.

Prompt positivo: “Un’immagine di una giovane donna indiana, focalizzata, decisa, surreale, in posa dinamica, ultra alta risoluzione, texture nitida, foto RAW ad alta definizione, volto dettagliato, profondità di campo ridotta, occhi nitidi, (texture pelle realistica: 1.2), pelle chiara, fotocamera reflex, grana film”

Prompt negativo: “(peggiore qualità, bassa qualità, illustrazione, 3D, 2D, pittura, cartoni, schizzo), bocca aperta”

Abbiamo un’immagine dettagliata di una donna indiana con pelle realistica. È una versione migliorata rispetto al modello SDXL di base.

Abbiamo generato altre tre immagini per confrontare diverse etnie. I risultati sono fenomenali, con segni sulla pelle, pelle porosa e tratti accurati.

Conclusioni

Lo sviluppo dell’arte generativa raggiungerà presto un livello in cui avremo difficoltà a differenziare tra immagini reali e sintetiche. Questo segnala un futuro sostenibile in cui chiunque può creare media altamente realistici da semplici prompt di testo sfruttando modelli personalizzati addestrati su dati reali diversificati. I progressi rapidi implicano un potenziale eccitante: forse un giorno, generare un video fotorealistico replicando la tua stessa somiglianza e modelli di linguaggio potrebbe essere semplice come digitare un prompt descrittivo.

In questo post, abbiamo imparato l’ingegneria dei prompt, i modelli avanzati di progettazione stabile e i modelli sintonizzati su misura per generare volti altamente accurati e realistici. Se desideri risultati ancora migliori, ti suggerisco di esplorare i vari modelli di alta qualità disponibili su civitai.com.

****[Abid Ali Awan](https://www.polywork.com/kingabzpro)**** (@1abidaliawan) è un professionista certificato nella scienza dei dati che ama costruire modelli di apprendimento automatico. Attualmente, si concentra sulla creazione di contenuti e sulla scrittura di blog tecnici su tecnologie di apprendimento automatico e scienze dei dati. Abid ha una laurea magistrale in management della tecnologia e una laurea triennale in ingegneria delle telecomunicazioni. La sua visione è quella di costruire un prodotto di intelligenza artificiale utilizzando una rete neurale grafica per gli studenti che lottano con disturbi mentali.