La ricerca presso Stanford presenta PointOdyssey un ampio dataset sintetico per il tracciamento a lungo termine dei punti.
Stanford research presents PointOdyssey, a large synthetic dataset for long-term point tracking.
I dataset annotati su larga scala hanno funzionato come un’autostrada per la creazione di modelli precisi in vari compiti di computer vision. Vogliono offrire una tale autostrada in questo studio per realizzare il tracciamento a lungo raggio a grana fine. Il tracciamento a lungo raggio a grana fine mira a seguire il punto di superficie del mondo corrispondente per il tempo più lungo possibile, data una qualsiasi posizione di pixel in qualsiasi frame di un film. Ci sono diverse generazioni di dataset mirati al tracciamento a grana fine a breve raggio (ad esempio, flusso ottico) e dataset regolarmente aggiornati mirati a vari tipi di tracciamento a lungo raggio a grana grossa (ad esempio, tracciamento di oggetti singoli, tracciamento di oggetti multipli, segmentazione di oggetti video). Tuttavia, ci sono solo pochi lavori all’interfaccia tra questi due tipi di monitoraggio.
I ricercatori hanno già testato i tracker a grana fine su film del mondo reale con annotazioni umane sparse (BADJA e TAPVid) e li hanno addestrati su dati sintetici irrealistici (FlyingThings++ e Kubric-MOVi-E), che consistono in oggetti casuali che si muovono in direzioni impreviste su sfondi casuali. Sebbene sia intrigante che questi modelli possano generalizzare a video reali, l’utilizzo di un addestramento così basilare impedisce lo sviluppo del contesto temporale a lungo raggio e della consapevolezza semantica a livello di scena. Sostengono che il tracciamento a lungo raggio dei punti non dovrebbe essere considerato un’estensione del flusso ottico, dove il naturalismo può essere abbandonato senza subire conseguenze negative.
Anche se i pixel del video possono muoversi in modo leggermente casuale, il loro percorso riflette diversi elementi che possono essere modellati, come il tremolio della fotocamera, i movimenti e le deformazioni a livello di oggetto e le connessioni multi-oggetto, inclusi gli incontri sociali e le interazioni fisiche. Il progresso dipende dalla consapevolezza della portata del problema, sia in termini di dati che di metodologia. I ricercatori dell’Università di Stanford suggeriscono PointOdyssey, un ampio dataset sintetico per l’addestramento e la valutazione del tracciamento a lungo termine a grana fine. L’ingegnosità, la diversità e il realismo dei video del mondo reale sono tutti rappresentati nella loro collezione, con annotazione perfetta dei pixel che può essere raggiunta solo tramite la simulazione.
- Google DeepMind presenta un nuovo strumento di intelligenza artificiale che classifica gli effetti di 71 milioni di mutazioni missense
- Curriculum di Data Science per lo Studio Autonomo
- Sbloccare l’ottimizzazione della batteria come l’apprendimento automatico e la microscopia a raggi X a scala nanometrica potrebbero rivoluzionare le batterie al litio
Utilizzano movimenti, layout delle scene e traiettorie della fotocamera che vengono estratti da video del mondo reale e da catture di movimento (in opposizione a essere casuali o progettati a mano), distinguendo il loro lavoro dai dataset sintetici precedenti. Utilizzano anche una randomizzazione di dominio su vari attributi della scena, come mappe dell’ambiente, illuminazione, corpi umani e animali, traiettorie della fotocamera e materiali. Possono anche fornire una maggiore fotorealistica rispetto a quanto era precedentemente possibile grazie ai progressi nell’accessibilità di contenuti di alta qualità e tecnologie di rendering. I profili di movimento dei loro dati sono derivati da ampi dataset di catture di movimento umano e animale. Utilizzano queste catture per generare traiettorie a lungo termine realistiche per umanoidi e altri animali in situazioni all’aperto.
In situazioni all’aperto, abbinano questi attori a oggetti 3D dispersi casualmente sul piano del terreno. Questi oggetti rispondono agli attori seguendo le leggi della fisica, ad esempio venendo allontanati quando i piedi entrano in contatto con essi. Successivamente, utilizzano catture di movimento di ambienti interni per creare scenari interni realistici e ricreano manualmente gli ambienti di cattura nel loro simulatore. Ciò consente di ricostruire i movimenti e le interazioni precisi mantenendo il carattere consapevole della scena dei dati originali. Per fornire dati complessi multi-vista delle situazioni, importano traiettorie della fotocamera derivate da riprese reali e collegano telecamere aggiuntive alle teste degli esseri sintetici. A differenza dei modelli di movimento in gran parte casuali di Kubric e FlyingThings, utilizzano un approccio guidato dalle catture.
I loro dati stimoleranno lo sviluppo di tecniche di tracciamento che vanno oltre la tradizionale dipendenza esclusiva da segnali dal basso verso l’alto come il matching di caratteristiche e utilizzano segnali a livello di scena per offrire forti priorità sulle tracce. Una vasta collezione di risorse simulate, tra cui 42 forme umanoidi con texture create dagli artisti, 7 animali, oltre 1.000 texture di oggetto/sfondo, oltre 1.000 oggetti, 20 scenari 3D originali e 50 mappe di ambiente, conferisce ai loro dati la loro diversità estetica. Per creare una varietà di scenari scuri e luminosi, randomizzano l’illuminazione della scena. Inoltre, aggiungono effetti dinamici di nebbia e fumo alle loro ambientazioni, aggiungendo un tipo di occlusione parziale che FlyingThings e Kubric non possiedono affatto. Uno dei nuovi problemi che PointOdyssey apre è come utilizzare il contesto temporale a lungo termine.
Ad esempio, l’algoritmo di tracciamento all’avanguardia Persistent Independent Particles (PIPs) ha una finestra temporale di 8 frame. Suggeriscono alcuni cambiamenti a PIPs come primo passo verso l’utilizzo di un contesto temporale arbitrariamente lungo, inclusa un’espansione significativa del suo ambito temporale di 8 frame e l’aggiunta di un meccanismo di aggiornamento del modello. Secondo i risultati sperimentali, la loro soluzione supera tutte le altre in termini di precisione di tracciamento, sia sul set di test di PointOdyssey che sui benchmark del mondo reale. In conclusione, PointOdyssey, un ampio dataset sintetico per il tracciamento a lungo termine dei punti che cerca di riflettere le difficoltà – e le opportunità – del monitoraggio a grana fine del mondo reale, è il principale contributo di questo studio.