Incontra AnyLoc Il metodo universale più recente per il riconoscimento visuale dei luoghi (VPR)

AnyLoc è il metodo più recente per il riconoscimento visuale dei luoghi (VPR).

Poiché il campo dell’Intelligenza Artificiale sta progredendo costantemente, si è aperto la strada verso un numero di casi d’uso, compresa la robotica. Considerando il Riconoscimento Visuale dei Luoghi (Visual Place Recognition – VPR) come una competenza critica per stimare lo stato del robot e ampiamente utilizzata in una varietà di sistemi robotici, come la tecnologia indossabile, i droni, i veicoli autonomi e i robot terrestri. Con l’utilizzo dei dati visivi, il VPR consente ai robot di riconoscere e comprendere la loro posizione o il luogo attuale all’interno del loro ambiente circostante.

È stato difficile ottenere un’applicazione universale per il VPR in una varietà di contesti. Sebbene i moderni metodi di VPR si comportino bene quando applicati a contesti simili a quelli in cui sono stati addestrati, come scenari di guida urbana, queste tecniche mostrano un significativo declino nell’efficacia in vari contesti, come ambienti acquatici o aerei. Sono stati fatti sforzi per progettare una soluzione VPR universale che possa funzionare senza errori in qualsiasi ambiente, compresi ambienti aerei, sottomarini e sotterranei, in qualsiasi momento, resistendo a cambiamenti come le variazioni giorno-notte o stagionali, e da qualsiasi punto di vista rimanendo invariata rispetto alle variazioni di prospettiva, comprese le visioni diametralmente opposte.

Per affrontare le limitazioni, un gruppo di ricercatori ha introdotto un nuovo metodo VPR di base chiamato AnyLoc. Il team ha esaminato le rappresentazioni delle caratteristiche visive preaddestrate su larga scala, che chiamano modelli fondamentali, come alternativa al semplice affidamento sull’addestramento specifico per il VPR. Anche se questi modelli non sono inizialmente addestrati per il VPR, contengono una ricchezza di caratteristiche visive che potrebbero un giorno formare la base di una soluzione VPR completa.

Nella tecnica AnyLoc, vengono attentamente scelti i migliori modelli fondamentali e le caratteristiche visive con gli attributi di invarianza richiesti, che includono la capacità del modello di mantenere specifiche qualità visive nonostante i cambiamenti nell’ambiente o nel punto di vista. I metodi di aggregazione locale prevalenti, frequentemente utilizzati nella letteratura VPR, vengono quindi uniti a questi attributi scelti. Per prendere decisioni più accurate sul riconoscimento della posizione, è necessario consolidare i dati provenienti da diverse aree dell’input visivo utilizzando tecniche di aggregazione locale.

AnyLoc funziona fondendo gli elementi visivi ricchi dei modelli fondamentali con le tecniche di aggregazione locale, rendendo il robot equipaggiato con AnyLoc estremamente adattabile e utile in diversi contesti. Può effettuare il riconoscimento visuale della posizione in una vasta gamma di ambienti, in diversi momenti del giorno o dell’anno e da prospettive varie. Il team ha riassunto i risultati come segue.

  1. Soluzione VPR universale: AnyLoc è stata proposta come una nuova base per il VPR, che funziona in modo impeccabile su 12 diversi dataset che comprendono variazioni di luogo, tempo e prospettiva.
  1. Sinergia tra caratteristiche e metodi: La combinazione di caratteristiche auto-supervisionate come DINOv2 con l’aggregazione non supervisionata come VLAD o GeM produce significativi miglioramenti delle prestazioni rispetto all’uso diretto delle caratteristiche per immagine dei modelli pronti all’uso.
  1. Caratterizzazione delle caratteristiche semantiche: L’analisi delle proprietà semantiche delle caratteristiche locali aggregate scopre domini distinti nello spazio latente, migliorando la costruzione del vocabolario VLAD e aumentando le prestazioni.
  1. Valutazione robusta: Il team ha valutato AnyLoc su diversi dataset in condizioni di VPR sfidanti, come variazioni giorno-notte e punti di vista opposti, stabilendo una solida base per futura ricerca universale VPR.