Incontra SAM-PT un nuovo metodo di intelligenza artificiale che estende la capacità del Modello Segmenta Qualsiasi Cosa (SAM) nel tracciare e segmentare qualsiasi cosa in video dinamici.

Incontra SAM-PT, un nuovo metodo di intelligenza artificiale che estende la capacità del Modello Segmenta Qualsiasi Cosa (SAM) nel tracciare e segmentare oggetti in video dinamici.

Numerose applicazioni, come la robotica, la guida autonoma e il montaggio video, traggono vantaggio dalla segmentazione dei video. Le reti neurali profonde hanno fatto grandi progressi negli ultimi anni. Tuttavia, gli approcci esistenti hanno bisogno di aiuto con dati non testati, specialmente in scenari di zero-shot. Questi modelli hanno bisogno di dati specifici di segmentazione video per il fine-tuning al fine di mantenere prestazioni consistenti in scenari diversi. In un contesto di zero-shot, o quando questi modelli vengono trasferiti a domini video su cui non sono stati addestrati e comprendono categorie di oggetti che cadono al di fuori della distribuzione di addestramento, i metodi attuali di segmentazione video semi-supervisionata (VOS) e segmentazione istanza video (VIS) mostrano lacune di prestazione nel trattare dati non visti.

Utilizzare modelli di successo dal dominio della segmentazione delle immagini per compiti di segmentazione video offre una soluzione potenziale a questi problemi. Il concetto Segment Anything (SAM) è uno di questi concetti promettenti. Con 11 milioni di immagini e più di 1 miliardo di maschere, il dataset SA-1B ha servito da terreno di addestramento per SAM, un modello di base solido per la segmentazione delle immagini. Le straordinarie capacità di generalizzazione di SAM in condizioni di zero-shot sono rese possibili dal suo vasto set di addestramento. Il modello ha dimostrato di funzionare in modo affidabile in vari compiti successivi utilizzando protocolli di trasferimento di zero-shot, è altamente personalizzabile e può creare maschere di alta qualità da un singolo punto di primo piano.

SAM mostra forti capacità di segmentazione delle immagini in condizioni di zero-shot. Tuttavia, non è naturalmente adatto per problemi di segmentazione video. Recentemente, SAM è stato modificato per includere la segmentazione video. A titolo di esempio, TAM combina SAM con il tracker di maschere basato su memoria XMem all’avanguardia. Similmente a come SAM-Track combina DeAOT con SAM. Sebbene queste tecniche ripristinino in gran parte le prestazioni di SAM sui dati in distribuzione, esse falliscono quando vengono applicate a condizioni più difficili di zero-shot. Molti problemi di segmentazione possono essere risolti utilizzando la sollecitazione visiva con altre tecniche che non necessitano di SAM, incluso SegGPT, sebbene richiedano comunque l’annotazione delle maschere per il frame video iniziale.

Questo problema rappresenta un ostacolo significativo alla segmentazione video di zero-shot, specialmente mentre i ricercatori lavorano per creare tecniche semplici per generalizzare a nuove situazioni e produrre in modo affidabile una segmentazione di alta qualità in vari domini video. I ricercatori dell’ETH di Zurigo, dell’HKUST e dell’EPFL presentano SAM-PT (Segment Anything Meets Point Tracking). Questo approccio offre una nuova soluzione al problema essendo il primo a segmentare video utilizzando il tracciamento di punti sparsi e SAM. Invece di utilizzare la propagazione delle maschere o il matching delle caratteristiche dense centrato sugli oggetti, suggeriscono un metodo basato sui punti che utilizza i dettagliati dati strutturali locali codificati nei film per tracciare i punti.

Grazie a ciò, è sufficiente annotare punti sparsi nel primo frame per indicare l’oggetto target e offre una generalizzazione superiore a oggetti non visti, una forza che è stata dimostrata nel benchmark UVO in un mondo aperto. Questa strategia espande efficacemente le capacità di SAM alla segmentazione video preservando al contempo la sua flessibilità intrinseca. Utilizzando l’adattabilità dei moderni tracker di punti come PIPS, SAM-PT sollecita SAM con traiettorie di punti sparsi previste utilizzando questi strumenti. Hanno concluso che l’approccio più adatto per sollecitare SAM era quello di inizializzare le posizioni da tracciare utilizzando i centri di cluster K-Medoids da un’etichetta di maschera.

È possibile distinguere chiaramente tra lo sfondo e gli oggetti target tracciando sia i punti positivi che quelli negativi. Suggeriscono diversi processi di decodifica delle maschere che utilizzano entrambi i punti per migliorare ulteriormente le maschere di output. Hanno anche sviluppato una tecnica di reinizializzazione dei punti che migliora la precisione del tracciamento nel tempo. In questo metodo, vengono scartati i punti che sono stati poco affidabili o oscurati, e vengono aggiunti i punti dalle sezioni o segmenti dell’oggetto che diventano visibili nei frame successivi, ad esempio quando l’oggetto ruota.

In particolare, i loro risultati dei test mostrano che SAM-PT si comporta almeno altrettanto bene delle approcci di zero-shot esistenti su diversi benchmark di segmentazione video. Ciò dimostra quanto il loro metodo sia adattabile e affidabile poiché durante l’addestramento non è stato richiesto alcun dato di segmentazione video. In ambienti di zero-shot, SAM-PT può accelerare i progressi nei compiti di segmentazione video. Il loro sito web offre diverse demo video interattive.