Google AI presenta SANPO un set di dati video multi-attributo per la comprensione delle scene umane egocentriche all’aperto.

Google AI presenta SANPO un set di dati video multi-attributo per la comprensione delle scene umane egocentriche all'aperto.

Per compiti come la guida autonoma, il modello di intelligenza artificiale deve comprendere non solo la struttura 3D delle strade e dei marciapiedi, ma anche identificare e riconoscere segnali stradali e semafori. Questo compito è reso più facile grazie a un laser speciale montato sulla macchina che cattura i dati in 3D. Tale processo è chiamato comprensione della scena egocentrica, ossia la comprensione dell’ambiente dalla propria prospettiva. Il problema è che non esistono set di dati disponibili al pubblico al di fuori del campo della guida autonoma che generalizzino alla comprensione delle scene umane egocentriche.

Ricercatori di Google hanno introdotto il dataset SANPO (Scene understanding, Accessibility, Navigation, Pathfinding, Obstacle avoidance), che è un dataset video con molteplici attributi per la comprensione delle scene umane egocentriche. SANPO consiste sia in dati reali che in dati sintetici, chiamati rispettivamente SANPO-Real e SANPO-Synthetic. SANPO-Real copre ambienti diversi ed è composto da video provenienti da due telecamere stereo per supportare i metodi multi-view. Il dataset reale include anche 11,4 ore di video catturati a 15 frame al secondo (FPS) con annotazioni dense.

SANPO è un dataset video su larga scala per la comprensione delle scene umane egocentriche, composto da oltre 600.000 fotogrammi reali e oltre 100.000 fotogrammi sintetici con annotazioni di previsione dense.

I ricercatori di Google hanno dato priorità alla protezione della privacy. Hanno raccolto i dati nel rispetto delle leggi a livello locale, cittadino e statale. Si sono anche assicurati di rimuovere qualsiasi informazione personale, come volti e targhe dei veicoli, prima di inviare i dati per l’annotazione.

Per superare le imperfezioni durante la cattura dei video, come sfocature di movimento, errori di valutazione umana, ecc., è stato introdotto SANPO-Synthetic per integrare il dataset reale. I ricercatori hanno collaborato con Parallel Domain per creare un dataset sintetico di alta qualità ottimizzato per corrispondere alle condizioni del mondo reale. SANPO-Synthetic è composto dal 1961 sessioni, registrate utilizzando telecamere virtualizzate Zed con una suddivisione uniforme tra posizioni montate sulla testa e sul petto.

Il dataset sintetico e una parte del dataset reale sono stati annotati utilizzando maschere di istanza panoptiche, che assegnano una classe e un ID a ciascun pixel. In SANPO-Real, solo alcuni fotogrammi hanno più di 20 istanze per fotogramma. Al contrario, SANPO-Synthetic presenta molte più istanze per fotogramma rispetto al dataset reale.

Alcuni degli altri importanti dataset video in questo campo sono SCAND, MuSoHu, Ego4D, VIPSeg e Waymo Open. SANPO è stato confrontato con questi dataset ed è il primo dataset con maschere panoptiche, profondità, posizionamento della telecamera, stereo multi-view e sia dati reali che sintetici. Oltre a SANPO, solo Waymo Open ha sia segmentazione panoptica che mappe di profondità.

I ricercatori hanno addestrato due modelli all’avanguardia – BinsFormer (per la stima della profondità) e kMaX-DeepLab (per la segmentazione panoptica), utilizzando il dataset SANPO. Hanno osservato che il dataset è piuttosto sfidante per entrambi i compiti di previsione densa. Inoltre, il dataset sintetico ha una maggiore precisione rispetto al dataset reale. Questo è principalmente perché gli ambienti del mondo reale sono più complessi rispetto ai dati sintetici. Inoltre, gli annotatori di segmentazione sono più precisi nel caso dei dati sintetici.

Introdotto per affrontare la mancanza di dataset per la comprensione delle scene umane egocentriche, SANPO è un importante progresso che comprende sia set di dati reali che sintetici. Le sue annotazioni dense, le caratteristiche multi-attributo e l’unicità della combinazione di segmentazione panoptica e informazioni di profondità lo distinguono dagli altri dataset in questo campo. Inoltre, l’impegno dei ricercatori per la privacy consente al dataset di supportare altri ricercatori nella creazione di sistemi di navigazione visiva per le persone ipovedenti e di spingere i confini della comprensione avanzata delle scene visive.