Ricercatori di Cornell e Tel Aviv presentano i Doppelganger Imparare a Disambiguare Immagini di Strutture Simili

Cornell and Tel Aviv researchers present Doppelganger Learning to Disambiguate Images of Similar Structures.

Osserva le immagini sopra. Sai notare la differenza? È come cercare di distinguere tra due gemelli. Forse uno ha i capelli leggermente più corti? O forse no? Nel campo dei sistemi di visione artificiale, si verifica un problema simile. Questa ricerca si concentra sulle attività geometriche di visione, come la ricostruzione 3D, in cui questi metodi incontrano spesso la sfida di distinguere se due immagini rappresentano superfici 3D identiche nel mondo reale o due superfici 3D distinte che presentano una notevole somiglianza. Determinazioni errate in questo senso possono portare a modelli 3D errati. Questo compito è chiamato “disambiguazione visiva”.

La soluzione proposta dai ricercatori di Cornell prevede la creazione di un nuovo dataset chiamato “Doppelgangers”, che comprende coppie di immagini che rappresentano sia la stessa superficie (positivi) sia due superfici diverse ma visivamente simili (negativi). Costruire il dataset Doppelgangers è stato un compito difficile, poiché persino gli esseri umani possono avere difficoltà a distinguere tra immagini identiche e simili. L’approccio sfrutta le annotazioni delle immagini esistenti nel database di immagini di Wikimedia Commons per generare automaticamente un ampio insieme di coppie di immagini etichettate.

Possiamo riassumere i contributi nell’immagine sopra come segue:

(a) Quando vengono presentate due immagini, i punti chiave e le corrispondenze vengono estratti attraverso l’applicazione di metodi di corrispondenza delle caratteristiche. È importante sottolineare che in questo scenario specifico, le immagini rappresentano una coppia negativa (doppelganger) che mostra due lati opposti dell’Arco di Trionfo. Le corrispondenze delle caratteristiche sono principalmente concentrate nel segmento superiore della struttura, caratterizzato da elementi ripetitivi, a differenza della sezione inferiore che presenta sculture.

(b) Successivamente vengono create maschere binarie per i punti chiave e le corrispondenze. Dopo di ciò, sia la coppia di immagini che le maschere vengono allineate utilizzando una trasformazione affine, che viene determinata in base alle corrispondenze identificate.

(c) Il classificatore utilizzato in questo contesto prende in input la concatenazione delle immagini e delle maschere binarie e produce una probabilità di output. Questa probabilità serve come indicazione della probabilità che la coppia data costituisca una corrispondenza positiva.

Tuttavia, è stato osservato che addestrare direttamente un modello di rete profonda su queste coppie di immagini grezze produce risultati insoddisfacenti. Per affrontare questo problema, è stato progettato un’architettura di rete specializzata. Questa rete incorpora informazioni preziose sotto forma di caratteristiche locali e corrispondenze 2D per migliorare le prestazioni del compito di disambiguazione visiva.

Nell’valutazione utilizzando il set di test Doppelgangers, questo metodo proposto dimostra un’ottima performance nel gestire compiti di disambiguazione complessi. Supera sia gli approcci di base che le alternative di progettazione della rete in modo significativo. Inoltre, lo studio investiga l’utilità del classificatore appreso come filtro di pre-elaborazione semplice nei calcoli del grafo della scena all’interno delle pipeline di struttura da movimento, come COLMAP.

Nel complesso, queste scoperte evidenziano il potenziale di questo approccio nel migliorare l’affidabilità e la precisione dei sistemi di visione artificiale in compiti legati alla ricostruzione 3D e alla disambiguazione visiva. Questa ricerca fornisce preziose intuizioni e strumenti nel campo della visione artificiale, con applicazioni promettenti in scenari reali che richiedono un riconoscimento e una ricostruzione accurate delle superfici.