Sovraperformare i limiti nella segmentazione istantanea in 3D Un approccio open-world con un miglioramento dell’etichettatura pseudo e scenari realistici

Superare i limiti nella segmentazione istantanea in 3D un approccio open-world con miglioramento dell'etichettatura pseudo e scenari realistici

Fornendo una classificazione a livello di istanza degli oggetti e un’etichettatura semantica, la segmentazione di istanze semantiche 3D cerca di identificare gli elementi in una determinata scena 3D rappresentata da un punto nuvola o una mesh. Numerose applicazioni di visione, tra cui robot, realtà aumentata e guida autonoma, dipendono dalla capacità di segmentare gli oggetti nello spazio 3D. A seguito dei progressi dei sensori utilizzati per raccogliere i dati di profondità, diversi set di dati con annotazioni a livello di istanza sono stati descritti in letteratura. Numerose strategie di segmentazione di istanze 3D sono state proposte di recente alla luce della disponibilità di set di dati 3D su larga scala e degli avanzamenti nelle tecniche di apprendimento approfondito.

Uno svantaggio significativo dei sistemi di segmentazione di istanze 3D basati su set di dati pubblicamente accessibili è l’apprendimento di un insieme determinato di etichette degli oggetti (vocabolario). Tuttavia, nel mondo reale ci sono molte classi di oggetti e l’inferenza potrebbe contenere molte classi sconosciute o non viste. Le tecniche attuali ignorano le classi sconosciute che apprendono su un insieme fisso e le etichettano come sfondo. Ciò rende impossibile per gli algoritmi di identificazione intelligente riconoscere oggetti non identificati o insoliti che non sono elementi di sfondo. Studi recenti hanno investigato impostazioni di apprendimento open-world per l’identificazione di oggetti 2D a causa dell’importanza nel rilevare oggetti sconosciuti.

Un modello è destinato a riconoscere oggetti sconosciuti in un ambiente open-world. Una volta etichettate le nuove classi, si preferisce che il nuovo insieme sia appreso progressivamente senza riaffinamento. Sebbene le approccio precedenti siano stati principalmente raccomandati per l’identificazione di oggetti open-world 2D, non sono ancora stati investigati nell’ambito 3D. Comprendere come gli oggetti appaiono in 3D e separarli dallo sfondo e dalle altre categorie di oggetti rappresenta il problema principale. La segmentazione di istanze 3D nell’ambiente open offre maggiore flessibilità permettendo al modello di riconoscere oggetti non identificati e chiedere ad un oracolo annotazioni per queste nuove classi per ulteriori addestramenti.

Figura 1: Segmentazione di istanze 3D in un ambiente open-world. Il modello scopre nuovi oggetti durante ogni fase di apprendimento iterativo e un operatore umano assegna gradualmente etichette ad alcuni di essi e li aggiunge alla base di conoscenza attuale per ulteriori addestramenti.

Tuttavia, questa strategia presenta alcuni svantaggi: tre fattori rendono necessarie tecniche di pseudo-etichettatura di qualità: (i) l’assenza di annotazioni per classi sconosciute, (ii) la similarità delle caratteristiche prevedute delle classi conosciute e sconosciute, e (iii) la necessità di un metodo di valutazione dell’oggettività più affidabile per distinguere tra maschere prevedute buone e cattive per le nuvole di punti 3D. In questo studio, ricercatori dell’Università di Intelligenza Artificiale Mohamed Bin Zayed (MBZUAI), dell’Università di Aalto, dell’Università Nazionale Australiana e dell’Università di Linköping esaminano una particolare impostazione di problema chiamata segmentazione di istanze 3D indoor open-world, che cerca di segmentare oggetti di classi sconosciute mentre aggiunge gradualmente nuove classi. Costruiscono protocolli e suddivisioni pratiche per verificare la capacità delle tecniche di segmentazione di istanze 3D di riconoscere oggetti non identificati. Come nelle impostazioni di apprendimento incrementale, la configurazione suggerita aggiunge etichette di oggetti sconosciute all’elenco delle classi riconosciute. Forniscono un identificatore di oggetti sconosciuti corretto in modo probabilistico che migliora il riconoscimento degli oggetti. Sono i primi ricercatori, per quanto ne sappiano, a investigare la segmentazione di istanze 3D in un ambiente open-world.

Il loro studio apporta i seguenti principali contributi:

• Forniscono il primo approccio di segmentazione di istanze 3D indoor open-world con un meccanismo speciale per identificare in modo preciso oggetti sconosciuti 3D. Utilizzano un approccio di auto-etichettatura per distinguere tra etichette di classi note e non conoscibili per produrre pseudo-etichette durante l’addestramento. Modificando la probabilità delle classi sconosciute in base alla distribuzione dei punteggi di oggettività, migliorano ulteriormente la qualità delle pseudo-etichette durante l’inferenza.

• Per una valutazione approfondita della segmentazione 3D indoor open-world, presentano suddivisioni open-world attentamente selezionate, con classi note vs classi sconosciute e apprendimento incrementale su oltre 200 corsi. Le suddivisioni suggerite utilizzano una varietà di circostanze realistiche, tra cui la distribuzione intrinseca delle classi di oggetti (basata sulla frequenza), i tipi di classi diverse scoperti durante l’esplorazione degli spazi interni (basato sulla regione) e la casualizzazione delle classi di oggetti nel mondo esterno. Numerosi test dimostrano il valore delle soluzioni suggerite per colmare il divario di prestazioni tra la loro tecnica e l’oracolo.