Questo articolo su AI presenta MVControl una rivoluzionaria architettura di rete neurale che rivoluziona la generazione di immagini multivista controllabili e la creazione di contenuti 3D

Innovazione rivoluzionaria MVControl presenta l'architettura di rete neurale che trasforma la generazione di immagini multivista controllabili e la creazione di contenuti 3D

Recentemente, ci sono stati notevoli progressi nella produzione di immagini 2D. I prompt di testo di input rendono semplice produrre grafiche ad alta fedeltà. Il successo nella creazione di immagini da testo è raramente trasferito al dominio del testo-3D a causa della necessità di dati di allenamento 3D. Grazie alle belle proprietà dei modelli di diffusione e delle rappresentazioni differenziabili in 3D, i recenti metodi basati sull’ottimizzazione della distillazione del punteggio (SDS) mirano a distillare la conoscenza 3D da un ampio modello generativo di immagini da testo preaddestrato e hanno ottenuto risultati impressionanti invece di addestrare un ampio modello generativo di immagini testuali-3D da zero con grandi quantità di dati 3D. DreamFusion è un lavoro esemplare che introduce un nuovo approccio alla creazione di asset 3D.

Nell’ultimo anno, le metodologie si sono evolute rapidamente, secondo il paradigma della distillazione 2D-3D. Numerosi studi sono stati proposti per migliorare la qualità di generazione applicando più fasi di ottimizzazione, ottimizzando contemporaneamente la diffusione prima della rappresentazione 3D, formulando l’algoritmo di distillazione del punteggio con una maggiore precisione o migliorando i dettagli dell’intero flusso di lavoro. Sebbene le approcci sopra possano produrre belle texture, garantire la coerenza visiva nel contenuto 3D prodotto è difficile poiché la priorità di diffusione 2D non è dipendente. Di conseguenza, sono stati fatti diversi sforzi per inserire le informazioni a multi-vista nei modelli di diffusione preaddestrati.

Il modello base è quindi integrato con una rete di controllo per consentire la produzione controllata di immagini da testo a multi-vista. Allo stesso modo, il team di ricerca ha addestrato solo la rete di controllo e i pesi di MVDream sono stati tutti congelati. Il team di ricerca ha scoperto sperimentalmente che la condizione di posa relativa rispetto all’immagine di condizione è migliore per il controllo della generazione di testo a multi-vista, anche se MVDream è addestrato con posizioni di telecamera descritte nel sistema di coordinate mondiali assolute. Questo è in contrasto con la descrizione iniziale della rete MVDream preaddestrata. Inoltre, la coerenza visiva può essere raggiunta solo adottando direttamente la rete di controllo 2D ControlNet per interagire con il modello base poiché il suo meccanismo di condizionamento è progettato per la creazione di immagini singole e deve tener conto della situazione a multi-vista.

Il modello base è quindi integrato con una rete di controllo per consentire la produzione controllata di immagini da testo a multi-vista. Allo stesso modo, il team di ricerca ha addestrato solo la rete di controllo e i pesi di MVDream sono stati tutti congelati. Il team di ricerca ha scoperto sperimentalmente che la condizione di posa relativa rispetto all’immagine di condizione è migliore per il controllo della generazione di testo a multi-vista, anche se MVDream è addestrato con posizioni di telecamera descritte nel sistema di coordinate mondiali assolute. Questo è in contrasto con la descrizione iniziale della rete MVDream preaddestrata. Inoltre, la coerenza visiva può essere raggiunta solo adottando direttamente la rete di controllo 2D ControlNet per interagire con il modello base poiché il suo meccanismo di condizionamento è progettato per la creazione di immagini singole e deve tener conto della situazione a multi-vista.

Per affrontare questi problemi, il team di ricerca dell’Università di Zhejiang, dell’Università Westlake e dell’Università di Tongji ha creato una tecnica di condizionamento unica basata sull’architettura originale di ControlNet, che è semplice ma sufficientemente efficace per consentire una generazione controllata di immagini da testo a multi-vista. Una parte degli estesi set di dati 2D LAION e 3D Objaverse sono utilizzati in modo congiunto per addestrare MVControl. In questo studio, il team di ricerca ha indagato sull’utilizzo della mappa dei bordi come input condizionale. Tuttavia, la loro rete è illimitata nella capacità di utilizzare diversi tipi di circostanze di input, come mappe di profondità, immagini a graffio, ecc. Una volta addestrato, il team di ricerca può utilizzare MVControl per fornire priorità 3D per la produzione controllata di asset 3D da testo. In particolare, il team di ricerca utilizza una priorità di diffusione ibrida basata su una rete MVControl e un modello Stable-Diffusion preaddestrato. Viene seguito un processo di generazione da rough a fine. Il team di ricerca ottimizza solo la texture nella fase finale quando ha una buona geometria nella fase rough. I loro test completi mostrano che il loro approccio suggerito può utilizzare un’immagine di condizione di input e una descrizione scritta per produrre immagini multivista controllate e contenuti 3D ad alta fedeltà e di alta qualità.

Per riassumere, le seguenti sono le loro principali contribuzioni.

• Dopo aver addestrato la loro rete, può essere utilizzata come componente di una diffusione ibrida prima della sintesi controllata di contenuti testuali in 3D tramite ottimizzazione SDS.

• Il team di ricerca suggerisce un design di rete unico per consentire una generazione controllata di immagini da testo a multi-vista dettagliate.

• Il loro approccio può produrre immagini a multi-vista ad alta fedeltà e risorse in 3D che possono essere controllate in modo dettagliato da un’immagine di condizione d’ingresso e da un prompt di testo, come mostrato da risultati sperimentali estesi.

• Oltre alla generazione di risorse in 3D attraverso l’ottimizzazione SDS, la loro rete MVControl potrebbe essere utile per varie applicazioni nella visione 3D e nella comunità grafica.