Questo articolo di intelligenza artificiale di Google e UC Berkeley introduce NeRFiller un approccio di intelligenza artificiale che rivoluziona la ricostruzione di scene 3D utilizzando modelli di diffusione di inpainting 2D

Rivoluzione nell'intelligenza artificiale Google e UC Berkeley presentano NeRFiller, un approccio innovativo per la ricostruzione di scene 3D utilizzando modelli di diffusione di inpainting 2D

“`html

Come possono essere completate efficacemente le porzioni mancanti di una cattura 3D? Questo articolo di ricerca di Google Research e UC Berkeley presenta “NeRFiller”, un nuovo approccio per il riempimento 3D, che affronta la sfida di ricostruire scene o oggetti 3D incompleti spesso mancanti a causa di fallimenti nella ricostruzione o mancanza di osservazioni. Questo approccio consente completamenti di scene precisi e personalizzabili controllando il processo di riempimento attraverso esempi di riferimento. NeRFiller è un approccio di riempimento generativo 3D che migliora le scene o gli oggetti nelle catture 3D, diventando una soluzione efficace per migliorare le ricostruzioni 3D.

Lo studio esplora diverse metodologie per completare sezioni mancanti in scene 3D, dal tradizionale riempimento 2D alle tecniche avanzate come LaMa per il riempimento su larga scala. Esamina modelli probabilistici e a diffusione latente, considerando approcci di generazione 3D che coinvolgono testo o immagini come input. Viene enfatizzata la pertinenza delle impostazioni di rimozione degli oggetti e vengono valutate diverse basi di confronto e set di dati per il riempimento 3D. Pur toccando i lavori correlati nel video editing e nella modifica delle scene, si concentra principalmente sul completamento delle scene nel contesto di scene 3D esistenti.

La ricerca affronta la sfida del completamento e del riempimento delle scene 3D, enfatizzando l’importanza di un approccio 3D-consapevole e multi-view coerente. Distinguendo tra il completamento delle scene e la rimozione degli oggetti, l’attenzione è focalizzata sulla generazione di nuovi contenuti all’interno delle scene 3D. Vengono discusse le limitazioni dei modelli di riempimento generativo 2D per immagini 3D coerenti. L’approccio proposto NeRFiller sfrutta il fenomeno del prior del reticolo dei modelli di diffusione testo-immagine per aumentare la coerenza multi-view nei riempimenti. Sono inoltre discusse opere correlate sulla generazione di scene 3D e metodi di rimozione degli oggetti.

NeRFiller è un metodo che utilizza un modello generativo di diffusione 2D come riempimento prima di completare le regioni mancanti nelle scene 3D. Affronta le sfide delle stime di riempimento diverse e della mancanza di coerenza 3D nei modelli 2D. NeRFiller incorpora meccanismi di consolidamento per risultati di riempimento salienti e incoraggia il carattere 3D. Utilizza l’ottimizzazione delle scene 3D iterativa, estendendo il riempimento del reticolo a una vasta collezione di immagini. Vengono confrontate basi di confronto come Masked NeRF e LaMask, dimostrando l’efficacia di NeRFiller. La valutazione include confronti, metriche di visualizzazione novel, qualità dell’immagine MUSIQ e metriche di geometria.

NeRFiller eccelle nel completamento delle scene 3D, riempiendo regioni mancanti e rimuovendo oggetti indesiderati, dimostrando coerenza e plausibilità 3D. Rispetto alle basi di confronto per la rimozione degli oggetti, NeRFiller si distingue nel completare aree mancanti. Le metriche di valutazione comprendono NeRF, visualizzazione novel, qualità dell’immagine MUSIQ e metriche di geometria, mostrando la sua efficacia nella generazione di scene coerenti e realistiche 3D.

In conclusione, NeRFiller è un potente strumento di riempimento 3D che può completare con precisione le parti mancanti nelle scene 3D. La sua capacità di riempire i vuoti e rimuovere elementi indesiderati supera le basi di confronto per la rimozione degli oggetti. L’introduzione di Joint Multi-View Inpainting migliora ulteriormente la sua coerenza mediando le predizioni di rumore su più immagini. NeRFiller ha dimostrato la sua efficacia nel completare scene 3D specificate dall’utente confrontandole con basi di confronto all’avanguardia. Fornisce un framework prezioso per il riempimento di regioni mancanti nelle catture 3D con specifiche definite dall’utente.

“`