Utilizzando le riflessioni per vedere il mondo da nuovi punti di vista

Using reflections to see the world from new perspectives.

Un nuovo sistema di visione artificiale trasforma qualsiasi oggetto lucido in una sorta di telecamera, consentendo all’osservatore di vedere attorno agli angoli o al di là degli ostacoli.

Researchers from MIT and Rice University have created a computer vision technique that leverages reflections to image the world by using them to turn glossy objects into “cameras,” enabling a user to see the world as if they were looking through the “lenses” of everyday objects like a ceramic coffee mug or a metallic paper weight.   

Mentre un’auto viaggia lungo una stretta strada cittadina, i riflessi sulla vernice lucida o sui retrovisori dei veicoli parcheggiati possono aiutare il conducente a intravedere cose che altrimenti sarebbero nascoste alla vista, come un bambino che gioca sul marciapiede dietro le auto parcheggiate.

Basandosi su questa idea, ricercatori del MIT e della Rice University hanno creato una tecnica di visione artificiale che sfrutta i riflessi per immaginare il mondo. Il loro metodo utilizza i riflessi per trasformare gli oggetti lucidi in “telecamere”, consentendo all’utente di vedere il mondo come se stesse guardando attraverso le “lenti” di oggetti comuni come una tazza da caffè in ceramica o un fermacarte in metallo.

Utilizzando immagini di un oggetto scattate da diverse angolazioni, la tecnica converte la superficie di quell’oggetto in un sensore virtuale che cattura i riflessi. Il sistema di intelligenza artificiale mappa questi riflessi in modo da consentire di stimare la profondità della scena e catturare viste nuove che sarebbero visibili solo dalla prospettiva dell’oggetto. Si potrebbe utilizzare questa tecnica per vedere oltre gli angoli o oltre gli oggetti che bloccano la vista dell’osservatore.

Questo metodo potrebbe essere particolarmente utile nei veicoli autonomi. Ad esempio, potrebbe consentire a un’auto a guida autonoma di utilizzare i riflessi degli oggetti che incontra, come i lampioni o gli edifici, per vedere oltre un camion parcheggiato.

“Abbiamo dimostrato che qualsiasi superficie può essere convertita in un sensore con questa formulazione che converte gli oggetti in pixel virtuali e sensori virtuali. Questo può essere applicato in molte aree diverse”, afferma Kushagra Tiwary, uno studente di dottorato nel Camera Culture Group presso il Media Lab e co-autore di un articolo su questa ricerca.

Tiwary è coadiuvato nell’articolo dal co-autore Akshat Dave, uno studente di dottorato presso la Rice University; Nikhil Behari, un associato di ricerca del MIT; Tzofi Klinghoffer, uno studente di dottorato del MIT; Ashok Veeraraghavan, professore di ingegneria elettrica e informatica presso la Rice University; e l’autore senior Ramesh Raskar, professore associato di arti e scienze dei media e leader del Camera Culture Group presso il MIT. La ricerca verrà presentata alla Conferenza sulla visione e il riconoscimento dei pattern del computer.

Riflessioni sui riflessi

I protagonisti dei programmi televisivi di polizia spesso “zoomano e migliorano” le immagini delle telecamere di sorveglianza per catturare riflessi – forse quelli catturati negli occhiali da sole del sospetto – che li aiutano a risolvere un crimine.

“Nella vita reale, sfruttare questi riflessi non è facile come premere un pulsante di miglioramento. Ottenere informazioni utili da questi riflessi è piuttosto difficile perché i riflessi ci danno una visione distorta del mondo”, dice Dave.

Questa distorsione dipende dalla forma dell’oggetto e dal mondo che l’oggetto sta riflettendo, entrambi dei quali i ricercatori possono avere informazioni incomplete. Inoltre, l’oggetto lucido potrebbe avere il proprio colore e texture che si mescolano con i riflessi. Inoltre, i riflessi sono proiezioni bidimensionali di un mondo tridimensionale, il che rende difficile giudicare la profondità nelle scene riflesse.

I ricercatori hanno trovato un modo per superare queste sfide. La loro tecnica, nota come ORCa (che sta per Object as Radiance-Field Cameras), funziona in tre fasi. In primo luogo, scattano foto di un oggetto da molti punti di vista, catturando molteplici riflessi sull’oggetto lucido.

Poi, per ogni immagine dalla telecamera reale, ORCa utilizza l’apprendimento automatico per convertire la superficie dell’oggetto in un sensore virtuale che cattura la luce e i riflessi che colpiscono ogni pixel virtuale sulla superficie dell’oggetto. Infine, il sistema utilizza i pixel virtuali sulla superficie dell’oggetto per modellare l’ambiente 3D dal punto di vista dell’oggetto.

Catturare i raggi

Immaginare l’oggetto da molti angoli consente a ORCa di catturare riflessi multivista, che il sistema utilizza per stimare la profondità tra l’oggetto lucido e altri oggetti nella scena, oltre a stimare la forma dell’oggetto lucido. ORCa modella la scena come un campo di radianza 5D, che cattura informazioni aggiuntive sull’intensità e la direzione dei raggi di luce che emanano e colpiscono ogni punto della scena.

Le informazioni aggiuntive contenute in questo campo di radianza 5D aiutano anche ORCa a stimare accuratamente la profondità. E poiché la scena è rappresentata come un campo di radianza 5D, anziché come un’immagine 2D, l’utente può vedere caratteristiche nascoste che altrimenti sarebbero bloccate da angoli o ostacoli.

In effetti, una volta che ORCa ha catturato questo campo di radianza 5D, l’utente può mettere una telecamera virtuale ovunque nella scena e sintetizzare ciò che quella telecamera vedrebbe, spiega Dave. L’utente potrebbe anche inserire oggetti virtuali nell’ambiente o modificare l’aspetto di un oggetto, ad esempio da ceramica a metallo.

“È stato particolarmente difficile passare da un’immagine 2D a un ambiente 5D. Devi assicurarti che il mapping funzioni ed è fisicamente accurato, quindi si basa su come la luce viaggia nello spazio e come interagisce con l’ambiente. Abbiamo trascorso molto tempo pensando a come possiamo modellare una superficie”, dice Tiwary.

Stime accurate

I ricercatori hanno valutato la loro tecnica confrontandola con altri metodi che modellano i riflessi, che è un compito leggermente diverso rispetto a quello svolto da ORCa. Il loro metodo si è comportato bene nel separare il vero colore di un oggetto dai riflessi e ha superato le basi estrarre geometrie e texture degli oggetti più accurate.

Hanno confrontato le stime di profondità del sistema con dati simulati di verità sul campo sulla distanza effettiva tra gli oggetti nella scena e hanno trovato le previsioni di ORCa affidabili. 

“Costantemente, con ORCa, non solo stima accuratamente l’ambiente come un’immagine 5D, ma per raggiungere questo obiettivo, nei passaggi intermedi, fa anche un buon lavoro nel stimare la forma dell’oggetto e separare i riflessi dalla texture dell’oggetto,” dice Dave.

Basandosi su questa prova di concetto, i ricercatori vogliono applicare questa tecnica all’immagine con i droni. ORCa potrebbe utilizzare i riflessi deboli da oggetti sorvolati da un drone per ricostruire una scena da terra. Vogliono anche migliorare ORCa in modo che possa utilizzare altri segnali, come le ombre, per ricostruire informazioni nascoste o combinare riflessi da due oggetti per immagini nuove parti di una scena.

“Stimare i riflessi speculari è davvero importante per vedere intorno agli angoli, e questo è il passo successivo naturale per vedere intorno agli angoli utilizzando riflessi deboli nella scena”, dice Raskar.

“In genere, gli oggetti lucidi sono difficili da gestire per i sistemi di visione. Questo articolo è molto creativo perché trasforma il debole di lunga data della lucidità dell’oggetto in un vantaggio. Sfruttando i riflessi ambientali da un oggetto lucido, l’articolo non solo è in grado di vedere parti nascoste della scena, ma anche di capire come la scena è illuminata. Ciò consente applicazioni nella percezione 3D che includono, ma non si limitano a, la capacità di comporre oggetti virtuali in scenari reali in modo che appaiano senza soluzione di continuità, anche in condizioni di illuminazione difficili”, dice Achuta Kadambi, professore associato di ingegneria elettrica e informatica all’Università della California a Los Angeles, che non ha partecipato a questo lavoro. “Uno dei motivi per cui gli altri non sono stati in grado di utilizzare gli oggetti lucidi in questo modo è che la maggior parte dei lavori precedenti richiede superfici con geometria o texture note. Gli autori hanno derivato una formulazione nuova e intrigante che non richiede tali conoscenze”.

La ricerca è stata supportata, in parte, dall’Intelligence Advanced Research Projects Activity e dalla National Science Foundation.