ByteDance AI Research propone un nuovo framework di apprendimento auto-supervisionato per creare avatar 3D stilizzati di alta qualità con una combinazione di parametri continui e discreti.
ByteDance AI Research propone un framework di apprendimento auto-supervisionato per creare avatar 3D stilizzati di alta qualità con parametri continui e discreti.
Un punto di ingresso chiave nel mondo digitale, che è sempre più diffuso nella vita moderna per socializzare, fare acquisti, giocare e altre attività, è un avatar 3D visivamente accattivante e animato. Un avatar decente dovrebbe essere attraente e personalizzato per corrispondere all’aspetto dell’utente. Molti noti sistemi di avatar, come Zepeto1 e ReadyPlayer2, utilizzano un aspetto cartoonesco e stilizzato perché sono divertenti e facili da usare. Tuttavia, scegliere e modificare un avatar a mano richiede di solito modifiche laboriose di molti elementi grafici, il che è sia lungo che difficile per gli utenti novizi. In questa ricerca, si indaga sulla generazione automatizzata di avatar 3D stilizzati da un solo selfie scattato frontalmente.
In particolare, dato un’immagine selfie, il loro algoritmo prevede un vettore di avatar come configurazione completa per un motore grafico per generare un avatar 3D e renderizzare immagini di avatar da asset 3D predefiniti. Il vettore di avatar è composto da parametri specifici degli asset predefiniti, che possono essere sia continui (ad esempio, lunghezza della testa) che discreti (ad esempio, tipi di capelli). Una soluzione semplice consiste nell’annotare un insieme di immagini selfie e addestrare un modello per prevedere il vettore di avatar tramite apprendimento supervisionato. Tuttavia, sono necessarie annotazioni su larga scala per gestire una vasta gamma di asset (di solito nell’ordine delle centinaia). Sono suggeriti approcci di auto-supervisione per addestrare un imitatore differenziabile che replica le immagini prodotte dal motore grafico per abbinare automaticamente l’immagine dell’avatar prodotta con l’immagine selfie utilizzando diverse perdite di identificazione e segmentazione semantica, riducendo così il costo di annotazione.
Per essere più precisi, dato un’autofoto, il loro sistema prevede un vettore di avatar come configurazione completa per un motore grafico per produrre un avatar 3D e renderizzare immagini di avatar da asset 3D specificati. Le caratteristiche che compongono il vettore di avatar sono specifiche degli asset predefiniti e possono essere sia continue (come la lunghezza della testa) che discrete (ad esempio, tipi di capelli). Un metodo semplice consiste nell’annotare una collezione di selfie e utilizzare l’apprendimento supervisionato per costruire un modello per prevedere il vettore di avatar. Tuttavia, sono necessarie annotazioni su larga scala per gestire una vasta varietà di asset (di solito nell’ordine delle centinaia).
- Top Strumenti AI per la Trascrizione Vocale (2023)
- Il team di Stability AI presenta FreeWilly1 e FreeWilly2 nuovi modelli di lingua di grandi dimensioni (LLM) ad accesso aperto.
- Meta AI presenta IMAGEBIND il primo progetto di intelligenza artificiale open source in grado di unire dati provenienti da sei modalità contemporaneamente, senza la necessità di supervisione esplicita.
La conversione del vettore di avatar, la parametrizzazione dell’avatar auto-supervisionato e la stilizzazione del ritratto sono i tre passaggi della loro innovativa architettura. Secondo la Fig. 1, le informazioni di identificazione (acconciatura, tonalità della pelle, occhiali, ecc.) vengono mantenute lungo tutto il percorso, mentre il divario di dominio viene gradualmente ridotto durante le tre fasi. La fase di stilizzazione del ritratto si concentra innanzitutto sulla transizione di dominio dall’aspetto visivo reale-stilizzato 2D. Questo passaggio mantiene lo spazio dell’immagine producendo il selfie di input come avatar stilizzato. Un uso grezzo delle attuali tecniche di stilizzazione per la traduzione manterrà elementi come l’espressione, che complicherebbe in modo evidente le fasi successive del percorso.
Di conseguenza, hanno sviluppato una versione modificata di AgileGAN per garantire l’omogeneità dell’espressione mantenendo l’identificazione dell’utente. Il passaggio di parametrizzazione dell’avatar auto-supervisionato è quindi incentrato sulla transizione dall’immagine basata su pixel all’avatar basato su vettori. Hanno scoperto che l’applicazione rigorosa della discrezione dei parametri impedisce all’ottimizzazione di raggiungere un comportamento convergente. Adottano una formulazione indulgente nota come vettore di avatar rilassato per superare questo problema, codificando i parametri discreti come vettori continui one-hot. Hanno insegnato a un imitatore a comportarsi come il motore non differenziabile per consentire la differenziabilità nell’addestramento. Tutti i parametri discreti vengono convertiti in vettori one-hot nel passaggio di conversione del vettore di avatar. Il dominio viene attraversato dallo spazio del vettore di avatar rilassato allo spazio del vettore di avatar rigoroso. Il motore grafico può quindi costruire gli avatar finali e renderizzarli utilizzando il vettore di avatar rigoroso. Utilizzano una tecnica di ricerca unica che produce risultati superiori rispetto alla quantizzazione diretta. Utilizzano la ricerca delle preferenze umane per valutare i loro risultati e confrontarli con approcci di base come F2P e produzione manuale per vedere quanto efficacemente il loro metodo protegge l’unicità personale. I loro risultati ottengono punteggi notevolmente superiori rispetto alle tecniche di base e sono molto simili a quelli della creazione manuale.
Forniscono inoltre uno studio di ablazione per supportare le decisioni di progettazione del loro pipeline. Le loro contribuzioni tecniche includono, in breve, quanto segue:
• Un nuovo framework di apprendimento auto-supervisionato per produrre avatar 3D stilizzati di alta qualità con una combinazione di parametri continui e discreti
• Un nuovo metodo per colmare il significativo divario di dominio di stile nella creazione di avatar 3D stilizzati utilizzando la stilizzazione dei ritratti
• Una pipeline di rilassamento e ricerca a cascata per affrontare il problema di convergenza nell’ottimizzazione dei parametri discreti dell’avatar.
Puoi trovare una dimostrazione video del paper sul loro sito.