Ricercatori di Deepmind Open-Source TAPIR Un Nuovo Modello di AI per Tracciare Qualsiasi Punto (TAP) che Traccia Efficacemente un Punto di Query in una Sequenza Video.

Deepmind researchers open-source TAPIR, a new AI model that effectively tracks any query point in a video sequence.

La visione artificiale è uno dei campi più popolari dell’Intelligenza Artificiale. I modelli sviluppati utilizzando la visione artificiale sono in grado di estrarre informazioni significative da diversi tipi di media, sia immagini digitali, video o qualsiasi altro input visivo. Insegna alle macchine come percepire e capire le informazioni visive per poi agire sui dettagli. La visione artificiale ha compiuto un significativo passo avanti con l’introduzione di un nuovo modello chiamato Tracking Any Point with per-frame Initialization and Temporal Refinement (TAPIR). TAPIR è stato progettato con l’obiettivo di tracciare efficacemente un punto di interesse specifico in una sequenza video.

Sviluppato da un team di ricercatori di Google DeepMind, VGG, Dipartimento di Scienze dell’Ingegneria e dell’Università di Oxford, l’algoritmo dietro il modello TAPIR consiste in due fasi – una fase di corrispondenza e una fase di raffinamento. Nella fase di corrispondenza, il modello TAPIR analizza ogni fotogramma della sequenza video separatamente per trovare una corrispondenza di punto candidato adatta per il punto di query. Questo passaggio cerca di identificare il punto di query più probabilmente correlato in ogni fotogramma e, per garantire che il modello TAPIR possa seguire il movimento del punto di query attraverso il video, questa procedura viene eseguita fotogramma per fotogramma.

La fase di corrispondenza in cui vengono identificate le corrispondenze di punti candidati è seguita dall’impiego della fase di raffinamento. In questa fase, il modello TAPIR aggiorna sia la traiettoria, che è il percorso seguito dal punto di query, che le caratteristiche di query in base alle correlazioni locali e quindi tiene conto delle informazioni circostanti in ogni fotogramma per migliorare l’accuratezza e la precisione del tracciamento del punto di query. La fase di raffinamento migliora la capacità del modello di tracciare con precisione il movimento del punto di query e di adattarsi alle variazioni nella sequenza video integrando le correlazioni locali.

Per la valutazione del modello TAPIR, il team ha utilizzato il benchmark TAP-Vid, che è un dataset di valutazione standardizzato per i compiti di tracciamento video. I risultati hanno mostrato che il modello TAPIR performa significativamente meglio rispetto alle tecniche di base. Il miglioramento delle prestazioni è stato misurato utilizzando una metrica chiamata Average Jaccard (AJ), su cui il modello TAPIR ha dimostrato di raggiungere un miglioramento assoluto di circa il 20% in AJ rispetto ad altri metodi sul benchmark DAVIS (Densely Annotated VIdeo Segmentation).

Il modello è stato progettato per facilitare l’elaborazione parallela rapida su lunghe sequenze video, ovvero può elaborare contemporaneamente più fotogrammi, migliorando l’efficienza dei compiti di tracciamento. Il team ha dichiarato che il modello può essere applicato in tempo reale, consentendo di elaborare e tenere traccia dei punti mentre vengono aggiunti nuovi fotogrammi video. Può tracciare 256 punti su un video di 256×256 a una velocità di circa 40 fotogrammi al secondo (fps) e può anche essere espanso per gestire filmati con risoluzione più elevata, conferendogli flessibilità nel modo in cui gestisce video di varie dimensioni e qualità.

Il team ha fornito due demo online di Google Colab per gli utenti che desiderano provare TAPIR senza installazione. La prima demo di Colab consente agli utenti di eseguire il modello sui propri video, offrendo un’esperienza interattiva per testare e osservare le prestazioni del modello. La seconda demo si concentra sull’esecuzione di TAPIR in modo online. Inoltre, gli utenti possono eseguire TAPIR in tempo reale tracciando i punti sulle proprie webcam con una GPU moderna clonando la base di codice fornita.