Incontra DreamIdentity Un metodo di intelligenza artificiale senza ottimizzazione per ogni identità facciale mantenendo la possibilità di modifica per i modelli di testo-immagine

Incontra DreamIdentity un metodo di intelligenza artificiale senza ottimizzazione per l'identificazione facciale, con la possibilità di modifica per i modelli di testo-immagine.

La disciplina della creazione di materiale visivo è recentemente cambiata grazie ai modelli di generazione di immagini su larga scala basati sulla diffusione di testo-a-immagine (T2I). Questi modelli T2I rendono semplice la produzione di grafica coinvolgente, espressiva e centrata sull’essere umano. Un uso intrigante di questi modelli è la loro capacità di generare diverse situazioni collegate a un’identità utilizzando descrizioni in linguaggio naturale, date le immagini facciali di una persona in situazioni quotidiane (i nostri familiari, amici, ecc.). La sfida della ri-contestualizzazione dell’identità, che si discosta dal tipico compito T2I illustrato nella Fig. 1, richiede al modello di mantenere l’identificazione del volto di input (cioè la conservazione dell’ID) nel rispetto delle indicazioni testuali.

Figura 1 mostra come DreamIdentity crea efficacemente un gran numero di immagini coerenti con l’identità e coerenti con il testo in vari contesti da un’unica immagine facciale senza la necessità di ottimizzazione durante il test.

Personalizzare un modello T2I pre-addestrato per ogni identità facciale è un metodo praticabile. Questo comporta l’apprendimento di correlare una parola specifica con l’essenza migliorandone la sua rappresentazione di parole o raffinando i parametri del modello. Grazie all’ottimizzazione per identità, questi approcci basati sull’ottimizzazione potrebbero essere più efficienti. Per evitare l’ottimizzazione per identità che richiede molto tempo, vari metodi senza ottimizzazione suggeriscono di mappare direttamente le caratteristiche dell’immagine ottenute da un codificatore di immagini pre-addestrato (di solito CLIP) in una rappresentazione di parole. Tuttavia, questo compromette la conservazione dell’identità. Pertanto, queste tecniche corrono il rischio di compromettere le capacità di modifica del modello T2I originale poiché richiedono il raffinamento dei parametri del modello T2I pre-addestrato o la modifica della struttura originale per inserire ulteriori caratteristiche di immagine a griglia.

In parole semplici, tutti gli sforzi contemporanei senza ottimizzazione lottano per mantenere un’identità pur mantenendo la possibilità di modificare il modello. Affermano che due problemi, ossia (1) la rappresentazione errata delle caratteristiche dell’identità e (2) l’obiettivo inconsistente tra l’addestramento e il test, siano le cause principali della difficoltà sopra menzionata negli studi contemporanei senza ottimizzazione. Da un lato, il fatto che il miglior modello CLIP attuale presenti ancora una precisione di identificazione del volto in cima al 1 (80,95% vs. 87,61%) molto peggiore rispetto al modello di riconoscimento del volto indica che il codificatore comune (cioè CLIP) utilizzato negli sforzi contemporanei è inadeguato per il ri-contestualizzazione dell’identità. Inoltre, le caratteristiche dell’ultimo strato di CLIP, che si concentrano principalmente sulla semantica di alto livello anziché sulle descrizioni precise del volto, non riescono a mantenere le informazioni di identificazione.

La capacità di modifica per l’immagine facciale di input viene influenzata negativamente da tutti i compiti contemporanei che utilizzano l’obiettivo di ricostruzione standard per apprendere la rappresentazione delle parole. Per affrontare la difficoltà sopra menzionata di conservazione dell’identità e di capacità di modifica, viene fornito un framework unico senza ottimizzazione (chiamato DreamIdentity) con una rappresentazione accurata dell’identità e un obiettivo coerente di addestramento/inferenza. Più precisamente, viene creato un unico codificatore ID multi-parola multi-scala (M2 ID encoder) nell’architettura di Vision Transformer per una rappresentazione corretta dell’identificazione. Questo codificatore è pre-addestrato su un ampio dataset di volti e proietta le caratteristiche multi-scala in rappresentazioni di parole multiple.

Ricercatori dell’Università di Scienza e Tecnologia della Cina e ByteDance suggeriscono un nuovo metodo di apprendimento di modifica auto-aumentato per spostare il compito di modifica nella fase di addestramento. Questo metodo utilizza il modello T2I per creare un dataset auto-aumentato generando volti di celebrità e varie immagini di celebrità modificate. Il codificatore M2 ID viene addestrato utilizzando questo dataset per migliorare la capacità di modifica del modello. Hanno apportato i seguenti contributi a questo lavoro: Sostengono che a causa della loro rappresentazione errata e degli obiettivi di addestramento/inferenza inconsistenti, gli approcci contemporanei senza ottimizzazione sono inefficaci per la conservazione dell’identità e l’alta capacità di modifica.

Tecnicamente parlando, (1) propongono M2 ID Encoder, una caratteristica multi-scala consapevole dell’identità con proiezione multi-rappresentazione, per una rappresentazione appropriata. (2) Incorporano l’apprendimento di modifica auto-aumentato per consentire al modello T2I sottostante di fornire un dataset di alta qualità per la modifica al fine di raggiungere un obiettivo coerente di addestramento/inferenza. L’efficacia dei loro approcci, che raggiungono efficacemente la conservazione dell’identità consentendo una modifica guidata dal testo flessibile o ri-contestualizzazione dell’identità, è dimostrata da studi approfonditi.