Questa ricerca sull’IA dalla Corea presenta MagiCapture un metodo di personalizzazione per integrare concetti di soggetto e stile per generare immagini ritratto ad alta risoluzione.

Questa ricerca coreana presenta MagiCapture, un metodo di personalizzazione per generare immagini ritratto ad alta risoluzione integrando concetti di soggetto e stile.

Le persone spesso hanno bisogno di recarsi in uno studio fotografico, seguito da una costosa e lunga procedura di modifica delle immagini, per produrre fotografie ritratto di alta qualità adatte a curriculum o celebrazioni di matrimonio. Immagina una situazione in cui potresti ottenere scatti ritratto di alta qualità in stili particolari, come foto per passaporto o profilo, utilizzando solo pochi selfie e foto di riferimento. Questo articolo automatizza la procedura. Le fotografie ritratto ad alta fedeltà e realismo sono ora realizzabili grazie agli sviluppi recenti nei modelli di generazione testo-immagine su larga scala come ‘Stable Diffusion’ e ‘Imagen’. Lo studio attuale sulla personalizzazione di questi modelli mira a combinare determinati soggetti o estetica utilizzando foto di addestramento disponibili.

Definiscono il loro obiettivo come una sfida di personalizzazione multi-concetto nel loro articolo. L’output composito viene prodotto una volta appresi i materiali di origine e lo stile di riferimento, rispettivamente. L’utilizzo di foto di riferimento anziché di modifiche basate su testo consente agli utenti di fornire consigli dettagliati, rendendolo più appropriato per questo scopo. Tuttavia, nonostante i risultati incoraggianti delle tecniche di personalizzazione precedenti, spesso si ottengono immagini prive di realismo e non commercialmente valide. Questo problema si manifesta generalmente nel tentativo di aggiornare i parametri di modelli complessi con poche foto. In una generazione multi-concetto, in cui la mancanza di immagini di riferimento per i concetti combinati porta comunemente alla mescolanza artificiale di concetti diversi o alla deviazione dai concetti originali, questa riduzione della qualità è ancora più evidente.

A causa del loro intrinseco pregiudizio umano, eventuali artefatti artificiali o cambiamenti nell’identità sono facilmente evidenti nella produzione di fotografie ritratto, dove questo problema è particolarmente evidente. MagiCapture, un approccio di personalizzazione multi-concetto per combinare idee di argomento e stile al fine di creare fotografie ritratto ad alta risoluzione utilizzando solo pochi riferimenti di soggetto e stile, viene presentato dai ricercatori del KAIST AI e della Sogang University come soluzione a questi problemi. Il loro approccio utilizza un apprendimento composito della richiesta, che include la richiesta composita come parte del processo di addestramento e rafforza l’integrazione stretta del materiale di origine e lo stile di riferimento. Per raggiungere questo obiettivo, vengono utilizzate perdite ausiliarie e etichette false. Suggeriscono anche la perdita di refocusing dell’attenzione in combinazione con un obiettivo di ricostruzione mascherato, una tattica essenziale per ottenere una separazione delle informazioni e evitare perdite di informazioni durante l’elaborazione. MagiCapture ottiene risultati migliori rispetto ad altre basi di confronto nelle valutazioni quantitative e qualitative e, con piccole modifiche, può essere applicato ad altri oggetti non umani.

Di seguito sono riportati i principali contributi del loro articolo:

• Forniscono una tecnica di personalizzazione multi-concetto che può produrre fotografie ritratto ad alta risoluzione che replicano accuratamente le caratteristiche sia delle fotografie di origine che di quelle di riferimento.

• Forniscono una nuova perdita di refocusing dell’attenzione con un obiettivo di ricostruzione mascherato che separa con successo le informazioni necessarie dalle immagini di input e impedisce la fuoriuscita di informazioni durante la produzione.

• Forniscono una strategia di apprendimento della richiesta composita che utilizza perdite ausiliarie e pseudoelementi per fondere efficacemente il materiale di origine e lo stile di riferimento. Il loro metodo supera gli approcci di base esistenti nelle valutazioni quantitative e qualitative e, con lievi modifiche, può essere applicato per produrre immagini di cose non umane.