Il laboratorio VIP di SUSTech propone il modello Track Anything (TAM) che permette di ottenere un tracciamento e una segmentazione interattiva ad alte prestazioni nei video.

Il laboratorio VIP di SUSTech presenta TAM, un modello per il tracciamento e la segmentazione interattiva di alto livello nei video.

Il tracciamento degli oggetti video (VOT) è una pietra miliare della ricerca sulla visione artificiale a causa dell’importanza del tracciamento di un oggetto sconosciuto in ambienti non vincolati. La segmentazione degli oggetti video (VOS) è una tecnica che, come VOT, cerca di identificare la regione di interesse in un video e di isolare l’oggetto dal resto del frame. I migliori tracciatori/segmentatori video attuali vengono avviati da una maschera di segmentazione o da un bounding box e vengono addestrati su grandi dataset annotati manualmente. Grandi quantità di dati etichettati, da un lato, richiedono un vasto lavoro umano. Inoltre, la VOS semi-supervisionata richiede una maschera di oggetto unica per l’inizializzazione secondo i parametri di inizializzazione attuali.

L’approccio Segment-Anything (SAM) è stato recentemente sviluppato come punto di riferimento completo per la segmentazione delle immagini. Grazie ai suoi suggerimenti adattabili e al calcolo delle maschere in tempo reale, consente un utilizzo interattivo. SAM è in grado di restituire maschere di segmentazione soddisfacenti su aree specificate dell’immagine quando vengono forniti suggerimenti dell’utente in forma di punti, box o linguaggio. Tuttavia, a causa della sua mancanza di coerenza temporale, i ricercatori non vedono una performance spettacolare quando SAM viene applicato immediatamente ai video.

Il team di ricercatori del SUSTech VIP Lab introduce il progetto Track-Anything, creando potenti strumenti per il tracciamento e la segmentazione degli oggetti video. Il Modello Track Anything (TAM) ha un’interfaccia semplice e può tracciare e segmentare qualsiasi oggetto in un video con un’unica inferenza.

TAM è un’espansione di SAM, un modello di segmentazione su larga scala, con XMem, un modello VOS all’avanguardia. Gli utenti possono definire un oggetto di destinazione inizializzando interattivamente SAM (cioè cliccando sull’oggetto); successivamente, XMem fornisce una previsione di maschera dell’oggetto nel frame successivo basata sulla corrispondenza temporale e spaziale. Infine, SAM fornisce una descrizione di maschera più precisa; gli utenti possono mettere in pausa e correggere durante il processo di tracciamento non appena notano dei fallimenti.

Il set di convalida DAVIS-2016 e il set di sviluppo dei test DAVIS-2017 sono stati utilizzati nell’analisi di TAM. In particolare, i risultati mostrano che TAM eccelle in ambienti complessi e sfidanti. Le eccezionali capacità di tracciamento e segmentazione di TAM con un’unica inizializzazione tramite click e un’unica inferenza sono dimostrate dalla sua capacità di gestire bene la separazione di oggetti multipli, la deformazione dell’oggetto, il cambio di dimensioni e il movimento della telecamera.

Il Modello Track Anything proposto (TAM) offre una vasta gamma di opzioni per il tracciamento e la segmentazione video adattiva, tra cui, ma non solo:

  • Trascrizione video rapida e facile: TAM può separare le regioni di interesse nei film e consentire agli utenti di scegliere quali oggetti vogliono seguire. Ciò significa che può essere utilizzato per l’annotazione video, come tracciamento e segmentazione degli oggetti video.
  • Osservazione prolungata di un oggetto: Poiché il tracciamento a lungo termine ha molte applicazioni nel mondo reale, i ricercatori gli stanno dedicando sempre più attenzione. Le applicazioni reali di TAM sono più avanzate in quanto possono gestire frequenti cambi di ripresa in video estesi.
  • Un editor video semplice da usare: Il Modello Track Anything ci permette di suddividere le cose in categorie. Le maschere di segmentazione degli oggetti di TAM ci consentono di ritagliare o riposizionare selettivamente qualsiasi oggetto in un film.
  • Kit per visualizzare e sviluppare attività legate ai video: Il team fornisce anche interfacce utente visualizzate per varie operazioni video, tra cui VOS, VOT, video inpainting e altro ancora, per facilitarne l’utilizzo. Gli utenti possono testare i loro modelli su materiale video del mondo reale e vedere i risultati in tempo reale con il toolbox.