Questa ricerca sull’IA presenta DreamCraft3D un approccio gerarchico per la creazione di materiali 3D che genera modelli 3D coerenti e ad alta fedeltà

Innovativa ricerca sull'IA DreamCraft3D, un approccio gerarchico per creare materiali 3D di alta qualità e modelli coerenti

La popolarità incredibile della modellazione generativa 2D ha avuto un impatto significativo sulla produzione di materiale visivo. Le reti generative profonde hanno ancora molta difficoltà nella creazione di tessuti in 3D, che sono essenziali per applicazioni come giochi, film e realtà virtuale. Sebbene la modellazione generativa 3D abbia prodotto risultati impressionanti per alcune categorie, sono necessari maggiori dati in 3D per generare modelli 3D ampi. Modelli generativi di testo-immagine precaricati sono stati utilizzati come guida nelle ricerche recenti, con risultati incoraggianti. DreamFusion è l’azienda che suggerisce per la prima volta l’uso di modelli testo-immagine (T2I) preaddestrati per la creazione in 3D. Per migliorare il modello 3D in modo che le sue rappresentazioni in visioni casuali si adattino alla distribuzione delle immagini condizionate dal testo interpretata da un potente modello di diffusione T2I, viene implementata una perdita di campionamento della distillazione del punteggio (SDS).

DreamFusion è in grado di produrre materiali 3D incredibilmente creativi mantenendo il potenziale creativo dei modelli generativi 2D. La ricerca recente utilizza metodologie di ottimizzazione a stadi o offre una migliore perdita di distillazione 2D per affrontare le preoccupazioni di sfocatura e sovrasaturazione, migliorando la fotorealismo. Tuttavia, la maggior parte delle ricerche esistenti non riesce a sintetizzare materiali complicati nello stesso modo dei modelli generativi 2D. Inoltre, queste opere soffrono spesso del “problema di Janus”, che si verifica quando le rappresentazioni 3D che sembrano credibili a loro volta presentano errori stilistici e semantici se viste nel loro complesso. Ricercatori dell’Università di Tsinghua e DeepSeek AI presentano DreamCraft3D in questo articolo come un metodo per creare oggetti 3D complessi mantenendo una coerenza 3D completa.

Indagano sulle possibilità di generazione gerarchica, influenzati dal processo creativo manuale, in cui un’idea astratta viene prima sviluppata in una bozza 2D. La geometria grezza viene scolpita, i dettagli geometrici vengono perfezionati e le texture ad alta fedeltà vengono dipinte. Seguono un approccio simile, scomponendo il compito difficile della creazione 3D in pezzi digeribili. Creano un’immagine di riferimento 2D di alta qualità da un input di testo, quindi utilizzano passaggi di miglioramento delle texture e scolpire la geometria per portarla nel 3D. A differenza di altri metodi, il loro lavoro dimostra come un’attenzione meticolosa ai dettagli ad ogni livello possa massimizzare il potenziale della generazione gerarchica e produrre creazioni 3D di altissimo livello. Lo scopo del passaggio di scolpire la geometria è quello di convertire l’immagine di riferimento 2D in una geometria 3D coerente e credibile.

Oltre all’uso di perdita fotometrica nella vista di riferimento e perdita SDS per nuove viste, presentano altre tattiche per favorire la coerenza geometrica. Prima di tutto, simulano la distribuzione delle opinioni uniche basate sull’immagine di riferimento utilizzando il modello di traduzione delle immagini condizionate dalla vista Zero-1-to-3 disponibile su scaffale. Questo modello di diffusione condizionato alla vista offre una ricca conoscenza tridimensionale che migliora la diffusione bidimensionale poiché è addestrato su vari input 3D. Hanno anche scoperto che l’espansione graduale delle viste di addestramento e il rafforzamento graduale del campionamento temporale sono essenziali per rafforzare ulteriormente la coerenza. Passano dalla rappresentazione di superfici implicite alla rappresentazione di mesh durante l’ottimizzazione per il raffinamento geometrico da grezzo a fine. Utilizzando questi metodi, il passaggio di scolpire la geometria sopprime efficacemente la maggior parte degli artefatti geometrici producendo geometrie precise e dettagliate.

Inoltre, suggeriscono l’uso della distillazione del punteggio avviata per migliorare significativamente la texture. La fedeltà dei modelli di diffusione bidimensionale contemporanei è spesso superata dai modelli di diffusione condizionati alla vista addestrati su 3D limitati. Invece, utilizzano rappresentazioni multi-vista dell’istanza 3D in fase di ottimizzazione per perfezionare ulteriormente il modello di diffusione. Questo modello di diffusione consapevole della coerenza della vista, dei modelli generativi 3D personalizzati svolge un ruolo fondamentale nel miglioramento della texture 3D. Inoltre, scoprono che i vantaggi reciproci derivanti dal miglioramento del generativo precedente e dalla rappresentazione 3D si rafforzano in modo alternato. L’addestramento su rendering multi-vista migliori aiuta il modello di diffusione, offrendo una migliore direzione per l’ottimizzazione della texture 3D.

Figura 1: DreamCraft3D genera modelli 3D con ricche caratteristiche e una consistenza 3D realistica, trasformando le foto 2D in 3D. Per ulteriori informazioni, guarda il video dimostrativo e l’appendice.

Invece di apprendere da una distribuzione target fissa come in precedenti tentativi, lo fanno in base all’evoluzione progressiva basata sullo stato di ottimizzazione. Il loro metodo di “bootstrapping” permette loro di mantenere l’integrità della visione mentre catturano una texture sempre più dettagliata. La loro tecnica può creare oggetti 3D immaginari con forme geometriche complesse e materiali realistici presentati coerentemente in 360 gradi, come si vede nella Figura 1. Il loro metodo offre una texture e una complessità molto migliori rispetto alle alternative basate sull’ottimizzazione. Nel frattempo, il loro lavoro eccelle nella generazione di rappresentazioni a 360° incredibilmente realistiche rispetto ai processi di immagine-3D. Queste scoperte indicano il grande potenziale di DreamCraft3D nel creare nuove strade creative per la produzione di contenuti 3D. L’intera implementazione sarà accessibile al pubblico in generale.