Ultima ricerca sull’IA dalla Cina presenta ‘OMMO’ un dataset e benchmark all’aperto multi-modale su larga scala per la sintesi di nuove visualizzazioni e la ricostruzione implicita della scena.
Ultima ricerca Cina 'OMMO' dataset e benchmark multi-modale per visualizzazioni e ricostruzione scene.
La sintesi di visualizzazioni nuove fotorealistiche e la ricostruzione della superficie ad alta fedeltà sono rese possibili dagli sviluppi recenti nelle rappresentazioni cerebrali implicite. Purtroppo, la maggior parte degli approcci attualmente in uso si concentra su un singolo oggetto o su una scena interna, e quando vengono utilizzati in situazioni esterne, le loro prestazioni di sintesi potrebbero essere migliori. I dataset attuali delle scene all’aperto sono creati su una modesta scala geografica, rendendo impossibile valutare le prestazioni di determinati approcci moderni, anche se sono ben progettati per scene di grandi dimensioni e cercano di affrontare questo problema.
Nelle collezioni BlendedMVS e UrbanScene3D sono inclusi foto di scene ricostruite o virtuali, che differiscono dalla scena reale per texture ed elementi di aspetto. La raccolta di immagini da Internet può creare dataset estremamente efficienti come ImageNet e COCO. Tuttavia, queste tecniche non sono adatte per valutare lavori basati su NeRF a causa degli oggetti e delle condizioni di illuminazione in costante cambiamento della scena. Uno standard per scenari all’aperto realistici, acquisiti con uno scanner laser industriale ad alta precisione, ad esempio, è fornito da Tanks and Temples. Tuttavia, la scala della scena è ancora troppo piccola (463m2 in media) e si concentra solo su un singolo oggetto o struttura esterna.
Un’illustrazione di una scena urbana dal nostro dataset, scattata con una traiettoria circolare a bassa illuminazione. Mostriamo il percorso della telecamera, spiegazioni scritte della scena e foto multivista calibrate. Il nostro dataset può fornire dettagli di texture realistici e ad alta fedeltà; alcune caratteristiche in scatole colorate sono ingrandite per mostrarlo.
- API di moderazione ChatGPT Controllo di Input/Output
- Salesforce AI ha sviluppato un nuovo algoritmo di editing chiamato EDICT che esegue la generazione di diffusione testo-immagine con un processo invertibile dato qualsiasi modello di diffusione esistente.
- Ricercatori UCLA propongono PhyCV una libreria di visione computerizzata ispirata alla fisica
Il loro approccio alla raccolta di dati è simile a quello dei NeRF di Mega-uso per registrare scenari del mondo reale estesi. Tuttavia, Mega-NeRF offre solo due scenari ripetitivi, il che impedisce di servire come punto di riferimento generalmente accettato. Pertanto, la ricerca NeRF su larga scala per ambienti esterni deve recuperare per gli oggetti singoli o le scene interne poiché, a loro conoscenza, non è stato sviluppato alcun dataset di scene su larga scala standard e ben riconosciuto per il benchmarking di NeRF. Presentano un dataset multimodale di visualizzazioni a volo scelte con cura per affrontare la carenza di dataset di scene all’aperto del mondo reale su larga scala. Come si può vedere nella figura sopra, il dataset è composto da 33 scene con annotazioni tempestive, tag e 14.000 foto calibrate. A differenza degli approcci esistenti sopra citati, le loro scene provengono da varie fonti, comprese quelle acquisite da Internet e da loro stessi.
Oltre ad essere accurata e rappresentativa, la collezione include una serie di tipologie di scene, dimensioni delle scene, traiettorie delle telecamere, condizioni di illuminazione e dati multimodali che devono essere presenti nei dataset precedenti. Forniscono anche benchmark completi basati sul dataset per la sintesi di visualizzazioni innovative, rappresentazioni di scene e sintesi multimodale per valutare l’adeguatezza e le prestazioni del dataset generato per valutare gli approcci standard di NeRF. Inoltre, offrono un processo generale per produrre dati NeRF del mondo reale da video online di droni, semplificando l’espansione del loro dataset per la comunità. Per offrire una valutazione dettagliata di ogni approccio, includono anche diversi sub-benchmark specifici per ciascuna delle attività sopra menzionate in base a diverse tipologie di scene, dimensioni delle scene, traiettorie delle telecamere e condizioni di illuminazione.
In sintesi, i loro principali contributi sono i seguenti:
• Per promuovere la ricerca NeRF su larga scala, presentano un dataset di scene all’aperto con dati multimodali più abbondanti e diversi rispetto a qualsiasi altro dataset all’aperto comparabile attualmente disponibile.
• Forniscono diversi compiti di benchmark per approcci NeRF all’aperto popolari per stabilire uno standard di benchmarking unificato. Numerosi test dimostrano che il loro dataset può supportare le tipiche attività basate su NeRF e fornire annotazioni rapide per la successiva ricerca.
• Per rendere il loro dataset facilmente scalabile, offrono una pipeline a basso costo per trasformare film che possono essere liberamente scaricati da Internet in dati di addestramento per NeRF.