Incontra Seal un framework di intelligenza artificiale che si propone di segmentare qualsiasi sequenza di punti cloud sfruttando i modelli di fondazione della visione 2D per l’apprendimento auto-supervisionato su grandi quantità di punti cloud 3D.

Seal è un framework di intelligenza artificiale che segmenta sequenze di punti cloud 3D utilizzando modelli di visione 2D e apprendimento auto-supervisionato su grandi quantità di dati.

I modelli di linguaggio di grandi dimensioni (LLM) hanno conquistato la comunità di Intelligenza Artificiale. Il loro recente impatto e l’incredibile performance hanno contribuito a una vasta gamma di settori come la sanità, la finanza, l’intrattenimento, ecc. I noti LLM come GPT-3.5, GPT 4, DALLE 2 e BERT, anche noti come modelli di base, svolgono compiti straordinari e semplificano le nostre vite generando contenuti unici dati solo un breve prompt di linguaggio naturale. 

I recenti modelli di base per la visione (VFMs) come SAM, X-Decoder e SEEM hanno fatto molti progressi nella visione artificiale. Sebbene i VFMs abbiano compiuto enormi progressi nei compiti di percezione 2D, la ricerca sui VFMs 3D deve ancora essere migliorata. I ricercatori hanno suggerito che sia necessario espandere i VFMs 2D attuali per i compiti di percezione 3D. Un compito cruciale di percezione 3D è la segmentazione dei nuvole di punti catturate da sensori LiDAR, che è essenziale per il funzionamento sicuro dei veicoli autonomi.

Le tecniche esistenti di segmentazione delle nuvole di punti si basano principalmente su dataset di grandi dimensioni che sono stati annotati per l’addestramento; tuttavia, l’etichettatura delle nuvole di punti è laboriosa e difficile. Per superare tutte le sfide, un team di ricercatori ha introdotto Seal, un framework che utilizza i modelli di base per la visione per segmentare diverse sequenze di nuvole di punti automobilistiche. Ispirati all’apprendimento della rappresentazione cross-modale, Seal raccoglie conoscenze semanticamente ricche dai VFMs per supportare l’apprendimento della rappresentazione auto-supervisionata sulle nuvole di punti automobilistiche. L’idea principale è quella di sviluppare campioni contrastivi di alta qualità per l’apprendimento della rappresentazione cross-modale utilizzando una relazione 2D-3D tra i sensori LiDAR e telecamera.

Seal possiede tre proprietà chiave: scalabilità, coerenza e generalizzabilità.

  1. Scalabilità: Seal utilizza i VFMs semplicemente convertendoli in nuvole di punti, eliminando la necessità di annotazioni 2D o 3D durante la fase di pre-formazione. Grazie alla sua scalabilità, gestisce grandi quantità di dati, che aiuta anche ad eliminare la laboriosa necessità di annotazione umana.
  1. Coerenza: l’architettura impone collegamenti spaziali e temporali sia dal camera-to-LiDAR che dal punto-to-segment. Seal consente l’efficiente apprendimento della rappresentazione cross-modale catturando le interazioni cross-modali tra la visione, cioè i sensori della telecamera e LiDAR, che aiutano a garantire che le rappresentazioni apprese incorporino dati pertinenti e coerenti da entrambe le modalità.
  1. Generalizzabilità: Seal consente il trasferimento di conoscenze a downstream applicazioni che coinvolgono diversi dataset di nuvole di punti. Generalizza e gestisce dataset con diverse risoluzioni, dimensioni, gradi di pulizia, livelli di contaminazione, dati reali e dati artificiali.

Alcuni dei principali contributi menzionati dal team sono:

  1. Il framework proposto Seal è un framework scalabile, affidabile e generalizzabile creato per catturare la coerenza spaziale e temporale consapevole della semantica.
  1. Consente l’estrazione di funzionalità utili da sequenze di nuvole di punti automobilistiche.
  1. Gli autori hanno dichiarato che questo studio è il primo a utilizzare i modelli di base per la visione 2D per l’apprendimento della rappresentazione auto-supervisionata su una grande scala di nuvole di punti 3D.
  1. In 11 diversi dataset di nuvole di punti con diverse configurazioni dei dati, SEAL ha funzionato meglio dei metodi precedenti sia nella sonda lineare che nel fine-tuning per le applicazioni downstream.

Per la valutazione, il team ha effettuato test su undici diversi dataset di nuvole di punti per valutare le prestazioni di Seal. I risultati hanno dimostrato la superiorità di Seal rispetto agli approcci esistenti. Sul dataset di nuScenes, Seal ha ottenuto un notevole mean Intersection over Union (mIoU) del 45,0% dopo la sonda lineare. Questa performance ha superato l’inizializzazione casuale del 36,9% mIoU e ha superato i precedenti metodi SOTA del 6,1% mIoU. Seal ha anche mostrato significativi guadagni di prestazioni in venti diversi task di fine-tuning few-shot in tutti gli undici dataset di nuvole di punti testati.