Ricercatori di S-Lab e NTU propongono Scenimefy un nuovo framework di traduzione immagine-immagine semi-supervisionato che colma il divario nel rendering di scene anime di alta qualità da immagini del mondo reale in modo automatico.

I researchers from S-Lab and NTU propose Scenimefy, a new semi-supervised image-to-image translation framework that automatically bridges the gap in rendering high-quality anime scenes from real-world images.

Le scenografie degli anime richiedono un grande talento creativo e tempo per essere create. Pertanto, lo sviluppo di metodi basati sull’apprendimento per la stilizzazione automatica delle scene ha un’indiscutibile importanza pratica ed economica. La stilizzazione automatica è migliorata notevolmente grazie agli sviluppi recenti delle Reti Generative Avversariali (GAN), ma la maggior parte di questa ricerca si è concentrata principalmente sui volti umani. Il processo di creazione di scenografie anime di alta qualità da foto intricate di scene del mondo reale deve ancora essere studiato nonostante il suo enorme valore di ricerca. A causa di diversi elementi, la conversione di fotografie di scene del mondo reale in stili anime richiede molto lavoro. 

1) La composizione della scena: la Figura 1 illustra questa gerarchia tra parti foreground e background nelle scene, che sono spesso composte da diversi elementi collegati in modi complicati. 

2) Caratteristiche degli anime: la Figura 1 mostra come tratti di pennello pre-progettati vengono impiegati in ambientazioni naturali come erba, alberi e nuvole per creare texture distintive e dettagli precisi che definiscono gli anime. La natura organica e disegnata a mano di queste texture le rende considerevolmente più difficili da imitare rispetto ai bordi nitidi e alle patch di colore uniforme delineate in esperimenti precedenti. 

3) La scarsità di dati e il divario di dominio: un dataset di scene anime di alta qualità è fondamentale per colmare il divario tra scene reali e anime, che presenta una significativa differenza di dominio. I dataset esistenti sono di bassa qualità a causa del gran numero di volti umani e altri elementi foreground che hanno un’estetica diversa dal paesaggio di sfondo. 

Figura 1: Caratteristiche delle scene anime. È possibile notare la presenza di tratti di pennello disegnati a mano di erba e pietre (foreground), nonché alberi e nuvole (background), rispetto a bordi puliti e superfici piatte in una scena tratta dal film “Children Who Chase Lost Voices” del 2011 di Shinkai.

La traduzione non supervisionata di immagini è un metodo popolare per la stilizzazione complessa delle scene senza dati di allenamento accoppiati. Le tecniche esistenti che si concentrano sugli stili degli anime devono recuperare in diversi ambiti nonostante mostrino risultati promettenti. In primo luogo, la mancanza di correlazione pixel per pixel in scenografie complesse rende difficile per gli approcci attuali eseguire una stilizzazione della texture evidente mantenendo il significato semantico, potenzialmente portando a output fuori dall’ordinario e con artefatti evidenti. In secondo luogo, alcuni metodi non producono i delicati dettagli delle scene anime. Ciò è dovuto alle perdite specifiche degli anime costruite o alle rappresentazioni pre-estratte, che impongono la pulizia dei bordi e delle superfici. 

Per risolvere i problemi sopra descritti, i ricercatori di S-Lab, Nanyang Technological University propongono Scenimefy, un unico flusso di lavoro di traduzione immagine-immagine (I2I) semi-supervisionato per creare rappresentazioni di alta qualità in stile anime di immagini di scene. Figura 2. La loro principale proposta è quella di utilizzare dati pseudo-accoppiati prodotti per introdurre un nuovo ramo di addestramento supervisionato nel framework non supervisionato per affrontare le limitazioni dell’addestramento non supervisionato. Utilizzano le caratteristiche vantaggiose di StyleGAN sottoponendolo a un ajuste fine per fornire dati approssimativamente accoppiati tra scene reali e anime o dati pseudo-accoppiati. 

Figura 2 mostra le rappresentazioni delle scene anime ottenute con Scenimefy. Riga superiore: immagini tradotte; riga inferiore: risultati della traduzione.

Forniscono un nuovo approccio di ajuste fine vincolato semanticamente che utilizza modelli preaddestrati ricchi come CLIP e VGG per guidare StyleGAN nella cattura dei dettagli intricati della scena e nella riduzione dell’overfitting. Per filtrare i dati di bassa qualità, offrono anche una tecnica di selezione dei dati guidata dalla segmentazione. Utilizzando i dati pseudo-accoppiati e una perdita di stile contrastiva patch-wise unica, Scenimefy crea dettagli fini tra i due domini e apprende una corrispondenza pixel per pixel efficace. Il loro framework semi-supervisionato cerca un compromesso desiderabile tra la fedeltà e la qualità della stilizzazione della scena e il ramo di addestramento non supervisionato. 

Hanno anche raccolto un dataset di alta qualità di scene di anime puri per aiutare l’addestramento. Hanno effettuato test approfonditi che dimostrano l’efficacia di Scenimefy, superando i benchmark dell’industria per la qualità percettiva e la valutazione quantitativa. Di seguito è riportata una panoramica dei loro principali contributi:

• Forniscono un nuovo framework di stilizzazione delle scene semi-supervisionato che trasforma fotografie reali in immagini sofisticate di scene di anime di eccellente qualità. Il loro sistema aggiunge una nuova perdita di stile contrastivo a livello di patch per migliorare la stilizzazione e i dettagli fini.

• Una nuova tecnica di fine-tuning di StyleGAN vincolata semanticamente, con una ricca guida pre-addestrata, seguita da uno schema di selezione dei dati guidato dalla segmentazione, produce dati pseudo-abbinati consistenti con la struttura che servono come base per la supervisione dell’addestramento.

• Hanno raccolto una collezione ad alta risoluzione di scene di anime per agevolare futuri studi sulla stilizzazione delle scene.