Il laboratorio VIP di SUSTech propone il modello Track Anything (TAM) che permette di ottenere un tracciamento e una segmentazione interattiva ad alte prestazioni nei video.

Il laboratorio VIP di SUSTech presenta TAM, un modello per il tracciamento e la segmentazione interattiva di alto livello nei video.

Il tracciamento degli oggetti video (VOT) è una pietra miliare della ricerca sulla visione artificiale a causa dell’importanza del tracciamento di un oggetto sconosciuto in ambienti non vincolati. La segmentazione degli oggetti video (VOS) è una tecnica che, come VOT, cerca di identificare la regione di interesse in un video e di isolare l’oggetto dal resto del frame. I migliori tracciatori/segmentatori video attuali vengono avviati da una maschera di segmentazione o da un bounding box e vengono addestrati su grandi dataset annotati manualmente. Grandi quantità di dati etichettati, da un lato, richiedono un vasto lavoro umano. Inoltre, la VOS semi-supervisionata richiede una maschera di oggetto unica per l’inizializzazione secondo i parametri di inizializzazione attuali.

L’approccio Segment-Anything (SAM) è stato recentemente sviluppato come punto di riferimento completo per la segmentazione delle immagini. Grazie ai suoi suggerimenti adattabili e al calcolo delle maschere in tempo reale, consente un utilizzo interattivo. SAM è in grado di restituire maschere di segmentazione soddisfacenti su aree specificate dell’immagine quando vengono forniti suggerimenti dell’utente in forma di punti, box o linguaggio. Tuttavia, a causa della sua mancanza di coerenza temporale, i ricercatori non vedono una performance spettacolare quando SAM viene applicato immediatamente ai video.

Il team di ricercatori del SUSTech VIP Lab introduce il progetto Track-Anything, creando potenti strumenti per il tracciamento e la segmentazione degli oggetti video. Il Modello Track Anything (TAM) ha un’interfaccia semplice e può tracciare e segmentare qualsiasi oggetto in un video con un’unica inferenza.

TAM è un’espansione di SAM, un modello di segmentazione su larga scala, con XMem, un modello VOS all’avanguardia. Gli utenti possono definire un oggetto di destinazione inizializzando interattivamente SAM (cioè cliccando sull’oggetto); successivamente, XMem fornisce una previsione di maschera dell’oggetto nel frame successivo basata sulla corrispondenza temporale e spaziale. Infine, SAM fornisce una descrizione di maschera più precisa; gli utenti possono mettere in pausa e correggere durante il processo di tracciamento non appena notano dei fallimenti.

Il set di convalida DAVIS-2016 e il set di sviluppo dei test DAVIS-2017 sono stati utilizzati nell’analisi di TAM. In particolare, i risultati mostrano che TAM eccelle in ambienti complessi e sfidanti. Le eccezionali capacità di tracciamento e segmentazione di TAM con un’unica inizializzazione tramite click e un’unica inferenza sono dimostrate dalla sua capacità di gestire bene la separazione di oggetti multipli, la deformazione dell’oggetto, il cambio di dimensioni e il movimento della telecamera.

Il Modello Track Anything proposto (TAM) offre una vasta gamma di opzioni per il tracciamento e la segmentazione video adattiva, tra cui, ma non solo:

Trascrizione video rapida e facile: TAM può separare le regioni di interesse nei film e consentire agli utenti di scegliere quali oggetti vogliono seguire. Ciò significa che può essere utilizzato per l’annotazione video, come tracciamento e segmentazione degli oggetti video.
Osservazione prolungata di un oggetto: Poiché il tracciamento a lungo termine ha molte applicazioni nel mondo reale, i ricercatori gli stanno dedicando sempre più attenzione. Le applicazioni reali di TAM sono più avanzate in quanto possono gestire frequenti cambi di ripresa in video estesi.
Un editor video semplice da usare: Il Modello Track Anything ci permette di suddividere le cose in categorie. Le maschere di segmentazione degli oggetti di TAM ci consentono di ritagliare o riposizionare selettivamente qualsiasi oggetto in un film.
Kit per visualizzare e sviluppare attività legate ai video: Il team fornisce anche interfacce utente visualizzate per varie operazioni video, tra cui VOS, VOT, video inpainting e altro ancora, per facilitarne l’utilizzo. Gli utenti possono testare i loro modelli su materiale video del mondo reale e vedere i risultati in tempo reale con il toolbox.

AI Shorts,Applications,artificial intelligence,Editors Pick,Machine Learning,Staff,Tech News,Technology,Uncategorized

Il laboratorio VIP di SUSTech propone il modello Track Anything (TAM) che permette di ottenere un tracciamento e una segmentazione interattiva ad alte prestazioni nei video.

Il laboratorio VIP di SUSTech presenta TAM, un modello per il tracciamento e la segmentazione interattiva di alto livello nei video.

Stanco di tarare i tassi di apprendimento? Incontra DoG un semplice ottimizzatore senza parametri supportato da solide garanzie teoriche

Potrebbero essere le patch? Questo approccio di intelligenza artificiale analizza il contributo chiave al successo dei Vision Transformers

Questo articolo di AI propone di inserire i...

Il team di Microsoft AI presenta NaturalSpe...

Generazione rapida e accurata di ologrammi ...

Questo articolo sull’Intelligenza Art...

Incontra Rodin un nuovo framework di intell...

Dove sono tutte le donne?

AI