Questo articolo sull’IA dalla Cina propone HQTrack un framework di intelligenza artificiale per il tracciamento di alta qualità di qualsiasi cosa nei video

This article from China proposes HQTrack, an AI framework for high-quality tracking of anything in videos.

Il tracciamento visuale degli oggetti è la base di numerosi sotto-campi all’interno della visione artificiale, tra cui la visione dei robot e la guida autonoma. Questo lavoro mira a identificare in modo affidabile l’oggetto target in una sequenza video. Molte algoritmi all’avanguardia competono nella sfida di Tracciamento Visuale degli Oggetti (VOT) dal momento che è una delle competizioni più importanti nel campo del tracciamento.

La competizione di Tracciamento e Segmentazione Visuale degli Oggetti (VOTS2023) rimuove alcune delle restrizioni imposte dalle precedenti sfide VOT in modo che i partecipanti possano pensare al tracciamento degli oggetti in modo più ampio. Di conseguenza, VOTS2023 combina il monitoraggio a breve e lungo termine di un singolo target e il tracciamento di molti target, utilizzando la segmentazione del target come unica specifica di posizione. Questo introduce nuove difficoltà, come la stima precisa della maschera, il tracciamento delle traiettorie di multipli target e il riconoscimento delle relazioni tra gli oggetti.

Uno nuovo studio condotto dalla Dalian University of Technology, in Cina, e dalla DAMO Academy, Alibaba Group, presenta un sistema chiamato HQTrack, che sta per High-Quality Tracking (Tracciamento di alta qualità). Comprende principalmente un segmentatore video multi-oggetto (VMOS) e un raffinatore di maschere (MR). Per percepire oggetti piccoli in configurazioni complesse, i ricercatori utilizzano VMOS, una variante migliorata di DeAOT, e applicano in cascata un modulo di propagazione controllato (GPM) a 1/8 della scala. Inoltre, utilizzano Intern-T come estrattore di caratteristiche per migliorare la capacità di distinguere tra diversi tipi di oggetti. In VMOS, i ricercatori mantengono solo il frame utilizzato più di recente nella memoria a lungo termine, scartando quelli più vecchi per fare spazio. Tuttavia, l’applicazione di un modello di segmentazione più grande potrebbe essere utile per migliorare le maschere di tracciamento. Gli oggetti con strutture complesse sono particolarmente sfidanti da prevedere per SAM e appaiono frequentemente nella sfida VOTS.

Utilizzando un modello HQ-SAM già pre-addestrato, il team può migliorare ulteriormente la qualità delle maschere di tracciamento. I risultati finali del tracciamento sono stati scelti da VMOS e MR, e sono state utilizzate le scatole di delimitazione esterne delle maschere previste come prompt per alimentare HQ-SAM insieme alle immagini originali per ottenere le maschere raffinate. HQTrack si classifica al secondo posto nella competizione VOTS2023 con un punteggio di qualità di 0,615 nel set di test.