Ricercatori della Seoul National University presentano LucidDreamer un innovativo approccio basato sull’intelligenza artificiale per la generazione di scene 3D senza dominio in realtà virtuale utilizzando la modellazione basata sulla diffusione.

Ricercatori della Seoul National University presentano LucidDreamer un innovativo approccio basato sull'intelligenza artificiale per la generazione di scene 3D in realtà virtuale senza vincoli utilizzando la modellazione basata sulla diffusione.

Sviluppo di piattaforme commerciali di realtà mista e veloce avanzamento della tecnologia grafica 3D hanno reso la creazione di scene 3D di alta qualità una delle principali sfide nella computer vision. Ciò richiede la capacità di convertire qualsiasi testo di input, immagini RGB e RGBD, ad esempio, in una varietà di scenari 3D realistici e diversificati. Sebbene siano stati fatti tentativi di costruire oggetti e scenari 3D direttamente utilizzando il modello di diffusione in voxel, nuvola di punti e rappresentazione neurale implicita, i risultati hanno mostrato una diversità e qualità limitate a causa delle restrizioni nei dati di addestramento basati su scansioni 3D. Usare un modello di diffusione generativo di immagini preaddestrato, come Stable Diffusion, per generare una varietà di scenari 3D eccellenti è un approccio per affrontare il problema. Conoscenza basata sui dati ottenuta dal massiccio set di addestramento, un modello così grande produce immagini credibili ma non può garantire la coerenza multi-vista tra le immagini che genera. 

Il team di ricerca della Seoul National University presenta in questo articolo un flusso di lavoro chiamato LucidDreamer che utilizza la “splatting” gaussiana 3D e la diffusione stabile per produrre una varietà di scenari 3D di alta qualità da diversi tipi di input, inclusi testo, RGB e RGBD. Sognare e Allineare sono due passaggi che si ripetono alternativamente per creare una singola grande nuvola di punti utilizzando il flusso di lavoro LucidDreamer. L’immagine originale e la mappa di profondità corrispondente creano una nuvola di punti iniziale prima di avviare i due processi. La creazione di immagini geometricamente coerenti e la loro proiezione nello spazio tridimensionale sono entrambi aspetti dell’esperienza del sogno. Prima di proiettare una regione visibile della nuvola di punti nelle nuove coordinate della telecamera sul piano della nuova telecamera, il team di ricerca sposta la telecamera lungo la traiettoria della telecamera predefinita. Successivamente, l’immagine proiettata viene inviata alla rete di “inpainting” basata su Stable Diffusion, che utilizza l’immagine per creare l’idea completa. Sollevando l’immagine rinpaintata e la mappa di profondità prevista nello spazio 3D, viene creata una nuova collezione di punti 3D. Successivamente, spostando delicatamente la posizione dei nuovi punti nello spazio 3D, la tecnica di allineamento suggerita li unisce dolcemente alla nuvola di punti corrente. Il team di studio utilizza la grande nuvola di punti che risulta dall’esecuzione dei procedimenti sopra menzionati un numero sufficiente di volte come punti SfM iniziali per ottimizzare le “splate” gaussiane. 

Rispetto alle rappresentazioni precedenti, la rappresentazione continua delle “splate” gaussiane 3D elimina le lacune causate dalla differenza di profondità nella nuvola di punti, permettendo di visualizzare scenari 3D più fotorealistici. La Figura 1 mostra un risultato di generazione 3D insieme alla semplice tecnica LucidDreamer. Rispetto ai modelli attuali, LucidDreamer mostra risultati notevolmente più realistici e sorprendenti. Migliori effetti visivi sono visibili in tutti i set di dati quando il team di studio confronta le scene 3D create condizionate da un’immagine da ScanNet, NYUDepth e Stable Diffusion.

Figura 1: I ricercatori creano LucidDreamer, un framework di base per produrre scenari 3D di alta qualità e coerenti tra più viste da testo, RGB e RGBD. Dopo aver sollevato l’immagine RGBD per produrre la prima nuvola di punti, LucidDreamer ripete due processi per far crescere e preservare il suo modello di mondo: allineamento e sogno. Ottimizzando una rappresentazione delle “splate” gaussiane, la scena 3D viene completata.

Il loro modello può creare scenari 3D in vari generi, tra cui realistico, anime, Lego e esterni/interni. Il loro concetto supporta molti domini e consente l’utilizzo contemporaneo di diverse condizioni di input. Ad esempio, crea una scena 3D basata sul testo e aggiunge l’immagine quando condiziona insieme testo e immagine. Questo elimina le difficoltà nella produzione della scena desiderata completamente dal testo e elimina la necessità di produrre campioni estensivamente. Inoltre, il loro metodo consente la modifica della condizione di input durante la creazione dello spazio 3D. Queste caratteristiche stimolano la creatività fornendo l’opportunità di costruire una varietà di impostazioni 3D. 

Hanno effettuato i seguenti contributi riassuntivi:

• Il team di ricerca presenta LucidDreamer, uno strumento di produzione di scenari 3D senza dominio, di alta qualità, che utilizza una rappresentazione 3D esplicita, stima della profondità e diffusione stabile per migliorare la generalizzazione del dominio nella sintesi degli scenari 3D.

• Il loro approccio Dreaming produce nuvole di punti come linee guida geometriche per la produzione di ogni immagine al fine di generare immagini multi-vista da Stable Diffusion. Le foto prodotte vengono abilmente integrate utilizzando la loro tecnica di allineamento per creare un insieme coerente di scenari 3D.

• La loro metodologia consente agli utenti di generare scenari 3D in vari modi, supportando diversi tipi di input (testo, RGB e RGBD), consentendo l’uso simultaneo di più input e cambiando gli input durante il processo di generazione.