Rivoluzionare la segmentazione degli oggetti video svelare Cutie con tecniche avanzate di lettura della memoria a livello oggetto

Rivoluzionare la segmentazione degli oggetti video svelare la bellezza con tecniche avanzate di analisi delle caratteristiche dei prodotti

Tracciare e segmentare oggetti da un vocabolario aperto definito in una annotazione del primo frame è necessario per la segmentazione degli oggetti video (VOS), più precisamente, l’opzione “semisupervised”. Le tecniche VOS possono essere accoppiate con modelli di segmentazione di qualsiasi cosa (SAM) per la segmentazione video per scopi generici (come il tracciamento di qualsiasi cosa) e per la robotica, il montaggio video e la riduzione dei costi nell’annotazione dei dati. I metodi VOS moderni utilizzano un paradigma basato sulla memoria. Qualsiasi nuovo frame di query “legge” da questa memoria per estrarre le caratteristiche per la segmentazione. Questa rappresentazione della memoria viene generata utilizzando i frame segmentati precedenti (forniti come input o segmentati dal modello). 

È importante notare che questi metodi creano la segmentazione dal basso verso l’alto dalla lettura della memoria dei pixel e utilizzano principalmente il confronto a livello di pixel per la lettura della memoria, sia con uno o più strati di confronto. Il confronto a livello di pixel converte ogni pixel della memoria in una combinazione lineare di pixel della query (ad esempio, utilizzando uno strato di attenzione). Di conseguenza, il confronto a livello di pixel ha una coerenza a basso livello ed è suscettibile al rumore di confronto, particolarmente quando sono presenti distrazioni. Di conseguenza, le prestazioni degli individui sono peggiori in situazioni difficili, comprese occlusioni e distrazioni frequenti. Concretamente, valutando il dataset MOSE recentemente suggerito anziché il dataset DAVIS-2017 predefinito, le prestazioni delle tecnologie attuali sono di oltre 20 punti in J & F peggiori. 

Ritengono che l’assenza di pensiero a livello di oggetto sia la causa dei risultati deludenti in casi difficili. Sugggeriscono la lettura della memoria a livello di oggetto per risolvere questo problema, che restituisce efficacemente l’oggetto dalla memoria al frame di query (Figura 1). Utilizzano un trasformatore di oggetti per raggiungere questa lettura della memoria a livello di oggetto poiché i metodi attuali di rilevamento/segmentazione oggetti basati su query che descrivono oggetti come “query oggetti” servono da ispirazione. Per 1) indagare e calibrare in modo iterativo una mappa delle caratteristiche (iniziando con una lettura della memoria a livello di pixel) e 2) codificare informazioni a livello di oggetto, questo trasformatore di oggetti utilizza una collezione limitata di query oggetti addestrate end-to-end. Questo metodo consente una comunicazione bidirezionale dall’alto verso il basso e dal basso verso l’alto mantenendo una rappresentazione di query oggetto a livello alto/globale e una mappa delle caratteristiche a livello basso/alta risoluzione. 

Figura 1 contrappone la lettura della memoria a livello di oggetto alla lettura a livello di pixel. Il frame di riferimento è a sinistra in ogni riquadro, mentre il frame di query segmentabile è a destra. Gli abbinamenti errati sono mostrati con frecce rosse. Quando ci sono distrazioni, l’abbinamento a livello di pixel (come potrebbe diventare rumoroso. Per una segmentazione affidabile degli oggetti video, consigliamo la lettura della memoria a livello di oggetto.

Per questa comunicazione, sono parametrizzati una serie di strati di attenzione, inclusa un’attenzione mascherata proposta per primo piano-sfondo. Esteso dall’attenzione mascherata solo per il primo piano, l’attenzione mascherata consente a alcune query oggetti di concentrarsi solo sul primo piano. Al contrario, le altre query si concentrano solo sullo sfondo, consentendo l’interazione delle caratteristiche globali e una chiara distinzione semantica tra primo piano/sfondo. Inoltre, incorporano una memoria oggetti compatta (oltre a una memoria pixel) per condensare le caratteristiche degli oggetti target. Con caratteristiche specifiche del target, questa memoria oggetti migliora le ricerche di oggetti end-to-end e consente una rappresentazione efficace a lungo termine degli oggetti target. 

Nelle prove, il metodo suggerito, Cutie, supera i metodi precedenti in situazioni difficili (come +8.7 J & F in MOSE rispetto a XMem) mantenendo livelli di precisione ed efficienza competitivi su dataset comuni come DAVIS e YouTubeVOS. In conclusione, i ricercatori dell’Università di Illinois Urbana-Champaign e Adobe Research hanno creato Cutie, che ha un trasformatore di oggetti per la lettura di memorie a livello di oggetto. 

• Combina le caratteristiche dal basso verso l’alto a livello di pixel con le query dall’alto verso il basso a livello alto per una segmentazione efficace degli oggetti video in situazioni difficili con occlusioni e distrazioni significative. 

• Estendono il focus mascherato alla parte anteriore e posteriore per distinguere l’oggetto target dalle distrazioni, preservando al contempo gli elementi ricchi della scena.

• Per memorizzare le caratteristiche degli oggetti in una forma compatta per il recupero successivo come rappresentazioni di livello oggetto specifiche del target durante le interrogazioni, creano una memoria oggetto compatta.