Ricercatori della SJTU in Cina introducono TransLO un framework Masked Point Transformer basato su finestre per l’odometria LiDAR su larga scala.

Ricercatori cinesi della SJTU introducono TransLO, un framework Masked Point Transformer basato su finestre per l'odometria LiDAR su larga scala.

Ricercatori della Shanghai Jiao Tong University e della China University of Mining and Technology hanno sviluppato TransLO. Questa rete LiDAR odometry integra un trasformatore di punti mascherati a finestra con auto-attenzione e attenzione incrociata mascherata. Gestendo efficacemente nuvole di punti sparse, TransLO utilizza una maschera binaria per eliminare i punti invalidi e dinamici.

L’approccio discute i metodi comuni di odometria LiDAR, tra cui le varianti dell’Iterative Closest Point (ICP) e l’ampiamente utilizzato LOAM, che estrae le caratteristiche per la stima del movimento. Viene data enfasi alle varianti di LOAM, che incorporano la segmentazione del terreno per una migliore performance. TransLO, la prima rete di odometria LiDAR basata su trasformatori, combina CNN e trasformatori per incapsulare le caratteristiche globali, migliorando il rifiuto degli outlier e la comprensione delle scene 3D. Componenti come maschere basate sulla proiezione, attenzione mascherata basata sulla finestra (WMSA) e attenzione mascherata incrociata (MCFA) sono valutati attraverso studi di ablazione per dimostrare l’efficacia di TransLO.

L’odometria LiDAR è fondamentale per applicazioni come SLAM, navigazione dei robot e guida autonoma, che tradizionalmente si basano su approcci ICP o basati sulle caratteristiche. I metodi basati sull’apprendimento, in particolare le CNN, affrontano sfide nella cattura delle dipendenze a lungo raggio e delle caratteristiche globali nelle nuvole di punti. TransLO utilizza un trasformatore di punti mascherati basato sulla finestra con auto-attenzione e attenzione incrociata mascherata per elaborare le nuvole di punti e stimare l’orientamento in modo efficiente.

TransLO utilizza un trasformatore di punti mascherati basato sulla finestra che elabora efficacemente le nuvole di punti utilizzando una proiezione 2D, un trasformatore locale che cattura le dipendenze a lungo raggio e un MCFA per prevedere l’orientamento. Le nuvole di punti vengono proiettate su una superficie cilindrica, utilizzando livelli di campionamento basati su stride con WMSA per la codifica delle caratteristiche. Le CNN ingrandiscono il campo percettivo e una maschera consapevole della proiezione affronta la sparsità delle nuvole di punti. Un’operazione di deforma-modelli aiuta il raffinamento iterativo. Gli studi di ablazione confermano l’efficacia dei componenti e TransLO supera i metodi esistenti sul dataset di odometria KITTI.

I risultati sperimentali sul dataset di odometria KITTI dimostrano la performance superiore di TransLO con un errore medio RMSE di rotazione di 0,500°/100m e un errore medio RMSE di traslazione dello 0,993%. TransLO supera i recenti metodi basati sull’apprendimento e addirittura supera LOAM nella maggior parte delle sequenze di valutazione. Gli studi di ablazione evidenziano l’importanza di WMSA e della maschera binaria, che filtra gli outlier. Il modulo MCFA migliora gli errori di traduzione e rotazione stabilendo corrispondenze soft tra i fotogrammi, sottolineando il suo ruolo cruciale nel successo del modello.

Il framework TransLO introduce una fase di proiezione che potrebbe comportare una perdita di informazioni, influenzando potenzialmente l’accuratezza dell’odometria. Lo studio richiede un’analisi dettagliata della complessità computazionale di TransLO, ostacolando una comprensione approfondita della sua efficienza rispetto ad altri metodi. La valutazione è limitata al dataset di odometria KITTI, sollevando dubbi sulla generalizzabilità del metodo a scenari diversi. La mancanza di confronti con metodi non basati su trasformatori limita la comprensione dei punti di forza e delle debolezze relative di TransLO.

La rete proposta TransLO, un trasformatore di punti mascherati basato sulla finestra end-to-end per l’odometria LiDAR, integra CNN e trasformatori per migliorare le incapsulazioni delle caratteristiche globali e il rifiuto degli outlier, raggiungendo prestazioni all’avanguardia sul dataset di odometria KITTI. I componenti chiave includono WMSA per le dipendenze a lungo raggio e MCFA per l’associazione dei fotogrammi e la previsione dell’orientamento. Gli studi di ablazione confermano l’importanza di WMSA, della maschera binaria per il filtro degli outlier e il ruolo cruciale di MCFA nell’instaurare corrispondenze soft. TransLO dimostra precisione, efficienza e focalizzazione delle caratteristiche globali superiori per la localizzazione e navigazione su larga scala.