Una nuova ricerca di intelligenza artificiale dell’Università del Maryland, College Park, ha sviluppato un sistema di intelligenza artificiale in grado di ricostruire scene in 3D dalle riflessioni nell’occhio umano.

The University of Maryland, College Park has developed an AI system that can reconstruct 3D scenes from reflections in the human eye.

L’occhio umano è un organo meraviglioso che permette la visione e memorizza importanti dati ambientali. Normalmente, utilizziamo i nostri occhi come due lenti per dirigere la luce sulle cellule fotosensibili che compongono la retina. Tuttavia, se guardassimo negli occhi di qualcun altro, potremmo anche vedere la luce riflessa dalla cornea. Quando usiamo una fotocamera per fotografare gli occhi di qualcun altro, trasformiamo i loro occhi in una coppia di specchi nel sistema di imaging. Poiché la luce che raggiunge la retina dell’osservatore e la luce che si riflette dai loro occhi provengono dalla stessa fonte, la loro fotocamera dovrebbe fornire immagini contenenti dettagli sull’ambiente che stanno osservando.

In precedenti esperimenti, un’immagine di due occhi ha recuperato una rappresentazione panoramica del mondo che l’osservatore vede. Applicazioni come il rilighting, l’estimazione dell’oggetto focalizzato, la rilevazione della posizione della presa e il riconoscimento personale sono stati ulteriormente studiati in indagini successive. Si chiedono se siano capaci di fare di più che ricostruire una singola mappa dell’ambiente panoramico o individuare schemi alla luce degli sviluppi attuali nella visione e grafica 3D. È possibile ripristinare la realtà dell’osservatore in tre dimensioni? Questo lavoro affronta queste preoccupazioni creando una scena 3D da una serie di immagini degli occhi. Partono dal fatto che quando muoviamo naturalmente la testa, i nostri occhi catturano e riflettono informazioni da più punti di vista.

Ricercatori dell’Università di Maryland offrono una nuovissima tecnica per creare ricostruzioni 3D dell’ambiente di un osservatore dagli scansione degli occhi, fondendo lavoro innovativo passato con gli sviluppi più recenti nella rappresentazione neurale. Il loro metodo utilizza una fotocamera fissa ed estrae gli indizi multi-view dalle immagini degli occhi. Allo stesso tempo, avviene il movimento della testa, a differenza della solita configurazione di acquisizione NeRF, che richiede una fotocamera in movimento per acquisire informazioni multi-view (spesso seguita dall’acquisizione della posizione della fotocamera). Sebbene concettualmente semplice, ricostruire un NeRF 3D da immagini degli occhi in pratica è difficile. La difficoltà iniziale è la separazione delle fonti. Devono distinguere tra le riflessioni e le complesse texture dell’iride degli occhi umani.

Il processo di ricostruzione 3D diventa più ambiguo a causa di questi modelli complicati. Le immagini visive che raccolgono sono intrinsecamente mescolate con le texture dell’iride, a differenza delle fotografie pulite della scena che normalmente si presumono nelle catture regolari. Questa composizione rende la tecnica di ricostruzione più difficile, che scompone la correlazione dei pixel. La stima della postura corneale presenta una seconda difficoltà. Gli occhi sono piccoli e difficili da localizzare con precisione dalle osservazioni delle immagini. Tuttavia, la precisione delle loro posizioni e delle loro orientazioni 3D è cruciale per la ricostruzione multi-view.

Per superare queste difficoltà, gli autori di questo studio riutilizzano NeRF per la formazione su immagini degli occhi aggiungendo due elementi essenziali: a) la decomposizione delle texture, che utilizza un breve raggio prima di rendere più facile distinguere le texture dell’iride dal campo di radianza complessivo, e b) il raffinamento della posa dell’occhio, che migliora la precisione della stima della posa nonostante le difficoltà poste dalle dimensioni ridotte degli occhi. Creano un dataset sintetico di un ambiente interno complesso con foto che catturano la riflessione da una cornea artificiale con una texture realistica per valutare le prestazioni ed efficacia della loro tecnica. Utilizzano anche una configurazione del mondo reale con diversi oggetti per scattare foto degli occhi. Conducono una ricerca considerevole su immagini oculari artificiali e reali raccolte per sostenere diverse decisioni di progettazione nella loro metodologia.

Ecco i loro principali contributi:

• Offrono una nuovissima tecnica per creare ricostruzioni 3D dell’ambiente di un osservatore dagli scansione degli occhi, fondendo lavoro innovativo passato con gli sviluppi più recenti nella rappresentazione neurale.

• Migliorano notevolmente la qualità del campo di radianza ricostruito introducendo un’anteprima radiale per la scomposizione della texture dell’iride nelle immagini degli occhi.

• Risolvono il problema speciale della raccolta di caratteristiche dagli occhi umani sviluppando un processo di raffinamento della posa della cornea che riduce le stime di posa rumorose delle globi oculari.

Questi sviluppi ampliano il campo della ricostruzione della scena 3D attraverso la rappresentazione neurale per gestire osservazioni di immagini parzialmente corrotte ottenute dalle riflessioni degli occhi. Questo crea nuove opportunità per la ricerca e lo sviluppo nel campo più ampio dell’imaging accidentale per rivelare e catturare scene 3D al di fuori della linea di vista visibile. Il loro sito web ha diversi video che mostrano i loro sviluppi in azione.

Figura 1 mostra la ricostruzione di un campo di radianza utilizzando le riflessioni degli occhi. L’occhio di una persona è molto riflettente. Dimostrano che utilizzando solo le riflessioni degli occhi del soggetto, è possibile ricostruire e visualizzare la scena 3D che stanno osservando da una serie di fotogrammi che registrano una testa in movimento.