Ricercatori dell’Università del Maryland e di Meta AI propongono OmnimatteRF un nuovo metodo di matting video che combina livelli dinamici di primo piano in 2D e un modello di sfondo in 3D.

Ricercatori dell'Università del Maryland e di Meta AI propongono OmnimatteRF, un nuovo metodo di matting video che combina livelli di primo piano in 2D e un modello di sfondo in 3D.

Suddividere un video in numerosi livelli, ognuno con la sua maschera alfa, e poi ricomporre i livelli nel video originale è la sfida nota come “video matting”. Poiché è possibile sostituire i livelli o elaborarli separatamente prima di ricomporli, ha molte applicazioni nell’industria del montaggio video ed è stata studiata per decenni. Le applicazioni in cui sono desiderate solo le maschere del soggetto di interesse includono il rotoscoping nella produzione video e la sfocatura dello sfondo nelle riunioni online. Tuttavia, generalmente si desidera la capacità di produrre maschere video che includano non solo l’oggetto di interesse ma anche i suoi effetti correlati, tra cui ombra e riflessi. Ciò potrebbe migliorare il realismo del film finale riducendo la necessità di una laboriosa segmentazione manuale degli effetti secondari.

La ricostruzione di uno sfondo pulito è preferibile in applicazioni come la rimozione degli oggetti e la capacità di separare gli impatti rilevanti degli oggetti in primo piano aiuta a fare proprio questo. Nonostante i suoi vantaggi, la non ben definita di questo problema ha portato a significativamente meno ricerche rispetto al problema standard del matting.

Omnimatte è lo sforzo più promettente fino ad oggi per affrontare questo problema. Gli Omnimatte sono livelli RGBA che registrano gli oggetti in movimento in primo piano e gli effetti che producono. L’uso di Omnimatte dell’omografia per modellare gli sfondi significa che può essere efficace solo per i video in cui lo sfondo è piano o in cui il solo tipo di movimento è la rotazione.

D2NeRF fa uno sforzo per risolvere questo problema modellando separatamente i componenti dinamici e statici della scena utilizzando due campi di radianza. Tutta l’elaborazione viene effettuata in tre dimensioni e il sistema può gestire scenari complessi con molti movimenti della fotocamera. Inoltre, non è richiesto alcun input di maschera, rendendolo completamente auto-supervisionato. Non è chiaro come combinare le informazioni 2D definite su video, come le maschere approssimative, ma riesce a segmentare in modo efficace tutti gli oggetti in movimento da uno sfondo statico.

Ricerche recenti dell’Università del Maryland e di Meta suggeriscono un approccio che combina i vantaggi di entrambi utilizzando un modello di sfondo 3D con livelli in primo piano 2D.

Gli oggetti, le azioni e gli effetti che sarebbero difficili da creare in 3D possono essere rappresentati dai leggeri livelli in primo piano 2D. Allo stesso tempo, la modellazione dello sfondo 3D consente di gestire lo sfondo di geometria complicata e i movimenti della fotocamera non rotazionali, aprendo la strada per l’elaborazione di una varietà più ampia di film rispetto agli approcci 2D. I ricercatori chiamano questa tecnica OmnimatteRF.

I risultati sperimentali dimostrano la sua forte performance su una vasta gamma di video senza richiedere modifiche dei parametri individuali per ciascuno. D2NeRF ha prodotto un set di dati di 5 video renderizzati utilizzando Kubrics per analizzare in modo obiettivo la separazione dello sfondo in ambienti 3D. Questi set sono ambienti interni relativamente non disordinati con alcuni oggetti in movimento che creano ombre solide. Inoltre, il team ha generato cinque video basati su film di Blender open-source che presentano animazioni complesse e condizioni di illuminazione per scenari più difficili e realistici. Entrambi i set di dati dimostrano prestazioni superiori rispetto alle indagini precedenti.

Il modello di sfondo non sarà in grado di ripristinare accuratamente il colore di una sezione se è sempre all’ombra. Poiché un livello animato ha un canale alfa, dovrebbe essere possibile registrare solo l’ombra additiva preservando il colore originale dello sfondo. Purtroppo, la mancanza di confini chiari circostanti questo problema nel suo contesto attuale rende difficile trovare una soluzione praticabile.