Gli studiosi di Oxford propongono Farm3D un framework di intelligenza artificiale in grado di apprendere animali 3D articolati mediante la distillazione della diffusione 2D per applicazioni in tempo reale come i videogiochi

Gli studiosi di Oxford propongono Farm3D, un framework di intelligenza artificiale per apprendere animali 3D in tempo reale, come i videogiochi.

La crescita fenomenale dell’IA generativa ha suscitato interessanti avanzamenti nella produzione di immagini, con tecniche come DALL-E, Imagen e Stable Diffusion che creano eccellenti immagini a partire da indizi testuali. Questo risultato potrebbe estendersi oltre ai dati bidimensionali. Un generatore di testo-immagine potrebbe essere utilizzato per creare modelli 3D di alta qualità, come dimostrato di recente da DreamFusion. Nonostante la mancanza di addestramento in 3D del generatore, ci sono dati sufficienti per ricostruire una forma tridimensionale. Questo articolo illustra come si possa ottenere di più da un generatore di testo-immagine e ottenere modelli articolati di vari tipi di oggetti tridimensionali.

Cioè, anziché cercare di creare un singolo oggetto 3D (DreamFusion), si desidera creare un modello statistico di un’intera classe di oggetti 3D articolati (come mucche, pecore e cavalli) che possa essere utilizzato per creare un oggetto 3D animabile utilizzabile in AR/VR, giochi e creazione di contenuti a partire da un’immagine singola, che sia reale o creata digitalmente. Affrontano questa problematica addestrando una rete in grado di predire un modello 3D articolato di un oggetto a partire da una singola fotografia. Per introdurre tali reti di ricostruzione, gli sforzi precedenti si sono basati su dati reali. Tuttavia, propongono di utilizzare dati sintetici prodotti utilizzando un modello di diffusione 2D, come Stable Diffusion.

Ricercatori del Visual Geometry Group dell’Università di Oxford propongono Farm3D, che è un’aggiunta ai generatori 3D come DreamFusion, RealFusion e Make-a-video-3D che creano un singolo oggetto 3D, statico o dinamico, tramite ottimizzazione al momento del test, a partire da testo o un’immagine, e richiedendo ore. Ciò offre diversi vantaggi. Innanzitutto, il generatore di immagini bidimensionali ha la propensione a generare esempi accurati e impeccabili della categoria di oggetti, curando implicitamente i dati di addestramento e semplificando l’apprendimento. In secondo luogo, la fornitura implicita di viste virtuali di ogni istanza di oggetto da parte del generatore bidimensionale fornisce ulteriori chiarimenti nella comprensione attraverso la distillazione. In terzo luogo, aumenta l’adattabilità dell’approccio eliminando la necessità di raccogliere (e forse censurare) dati reali.

Al momento del test, la loro rete esegue la ricostruzione a partire da una singola immagine in modo diretto, in pochi secondi, producendo un modello 3D articolato che può essere manipolato (ad esempio, animato, illuminato) anziché un artefatto 3D o 4D fisso. Il loro metodo è adatto per la sintesi e l’analisi in quanto la rete di ricostruzione generalizza a immagini reali addestrandosi solo su input virtuali. Le applicazioni potrebbero essere utilizzate per studiare e conservare i comportamenti degli animali. Farm3D si basa su due importanti innovazioni tecniche. Per apprendere modelli 3D articolati, dimostrano innanzitutto come sia possibile indurre Stable Diffusion a produrre un ampio set di addestramento di immagini generalmente pulite di una categoria di oggetti utilizzando un rapido processo di ingegnerizzazione.

Dimostrano come MagicPony, una tecnica all’avanguardia per la ricostruzione monoculare di oggetti articolati, può essere avviato utilizzando queste immagini. In secondo luogo, mostrano che, anziché adattare un singolo modello di campo di radianza, la perdita di Score Distillation Sampling (SDS) può essere estesa per ottenere supervisione sintetica multi-vista per addestrare un autoencoder foto-geometrico, nel loro caso MagicPony. Per creare nuove viste artificiali dello stesso oggetto, l’autoencoder foto-geometrico divide l’oggetto in vari aspetti che contribuiscono alla formazione dell’immagine (come la forma articolata dell’oggetto, l’aspetto, il punto di vista della fotocamera e l’illuminazione).

Per ottenere un aggiornamento del gradiente e una retropropagazione ai parametri apprendibili dell’autoencoder, queste viste sintetiche vengono alimentate nella perdita SDS. Forniscono a Farm3D una valutazione qualitativa basata sulla sua capacità di produzione e riparazione 3D. Possono valutare Farm3D quantitativamente su compiti analitici come il trasferimento di punti chiave semantici, poiché è in grado di ricostruire oltre che creare. Nonostante il modello non utilizzi immagini reali per l’addestramento e quindi risparmi tempo nella raccolta e cura dei dati, mostrano prestazioni equivalenti o addirittura migliori rispetto a vari baselines.