I ricercatori del CMU propongono l’Adattamento al Test-Time con Modelli Centrati sui Slot (Slot-TTA) un Modello Semi-Supervisionato dotato di un Vincolo Centrato sui Slot che Segmenta e Ricostruisce congiuntamente le Scene

I ricercatori del CMU propongono l'Adattamento al Test-Time con Modelli Centrati sui Slot (Slot-TTA), un Modello Semi-Supervisionato che Segmenta e Ricostruisce le Scene con un Vincolo Centrato sui Slot.

Una delle sfide più complesse e fondamentali della visione artificiale è la segmentazione delle istanze. La capacità di delineare e categorizzare in modo preciso gli oggetti all’interno delle immagini o delle nuvole di punti 3D è fondamentale per diverse applicazioni, dalla guida autonoma all’analisi delle immagini mediche. Nel corso degli anni, sono stati compiuti enormi progressi nello sviluppo di modelli di segmentazione delle istanze all’avanguardia. Tuttavia, questi modelli spesso hanno bisogno di aiuto con scenari e dataset reali diversificati che si discostano dalla loro distribuzione di addestramento. Questa sfida di adattare i modelli di segmentazione per gestire questi scenari out-of-distribution (OOD) ha stimolato una ricerca innovativa. Uno degli approcci pionieristici che ha suscitato grande attenzione è Slot-TTA (Test-Time Adaptation).

Nel campo in rapida evoluzione della visione artificiale, i modelli di segmentazione delle istanze hanno compiuto progressi notevoli, consentendo alle macchine di riconoscere e segmentare con precisione gli oggetti all’interno delle immagini e delle nuvole di punti 3D. Questi modelli sono diventati la base di numerose applicazioni, dall’analisi di immagini mediche alle auto a guida autonoma. Tuttavia, affrontano un avversario comune e formidabile: l’adattamento a scenari e dataset reali diversificati che vanno oltre i dati di addestramento. Questa incapacità di passare senza soluzione di continuità da un dominio all’altro rappresenta un ostacolo sostanziale nel dispiegamento efficace di questi modelli.

Ricercatori della Carnegie Mellon University, Google Deepmind e Google Research hanno presentato una soluzione rivoluzionaria chiamata Slot-TTA per affrontare questa sfida. Questo approccio innovativo è progettato per l’adattamento al test-time (TTA) nella segmentazione delle istanze. Slot-TTA combina le capacità dei componenti di rendering delle immagini e delle nuvole di punti focalizzati sullo slot con le tecniche di segmentazione all’avanguardia. L’idea principale alla base di Slot-TTA è quella di consentire ai modelli di segmentazione delle istanze di adattarsi dinamicamente agli scenari OOD, migliorando significativamente la loro precisione e versatilità.

Slot-TTA si basa sul fondamento dell’Adjusted Rand Index (ARI) come principale metrica di valutazione della segmentazione. Viene sottoposto a un addestramento e una valutazione rigorosi su una serie di dataset, che comprendono immagini RGB posate multi-view, immagini RGB single-view e complesse nuvole di punti 3D. La caratteristica distintiva di Slot-TTA è la sua capacità di sfruttare il feedback di ricostruzione per l’adattamento al test-time. Questa innovazione comporta il raffinamento iterativo della segmentazione e della qualità del rendering per punti di vista e dataset precedentemente non visti.

Nelle immagini RGB posate multi-view, Slot-TTA emerge come un concorrente formidabile. La sua adattabilità è dimostrata attraverso una valutazione completa del dataset MultiShapeNetHard (MSN). Questo dataset comprende oltre 51.000 oggetti ShapeNet, accuratamente renderizzati su sfondi HDR del mondo reale. Ogni scena nel dataset MSN ha nove immagini RGB posate renderizzate strategicamente suddivise in viste di input e di destinazione per l’addestramento e il test di Slot-TTA. I ricercatori prestano particolare attenzione per garantire che non ci sia sovrapposizione tra le istanze degli oggetti e il numero di oggetti presenti nelle scene tra i set di addestramento e di test. Questa costruzione rigorosa del dataset è fondamentale per valutare la robustezza di Slot-TTA.

Nella valutazione, Slot-TTA viene confrontato con diversi baselines, tra cui Mask2Former, Mask2Former-BYOL, Mask2Former-Recon e Semantic-NeRF. Questi baselines sono punti di riferimento per confrontare le prestazioni di Slot-TTA all’interno e al di fuori della distribuzione di addestramento. I risultati sono sorprendenti.

Innanzitutto, Slot-TTA con TTA supera Mask2Former, un segmentatore di immagini 2D all’avanguardia, in particolare nelle scene OOD. Ciò dimostra la superiorità di Slot-TTA quando si tratta di adattarsi a scenari reali diversificati.

In secondo luogo, l’aggiunta di perdite auto-supervisionate da Bartler et al. (2022) in Mask2Former-BYOL non porta a miglioramenti, sottolineando che non tutti i metodi TTA sono altrettanto efficaci.

In terzo luogo, Slot-TTA senza supervisione della segmentazione, una variante addestrata esclusivamente per la sintesi di immagini cross-view simile a OSRT (Sajjadi et al., 2022a), ha prestazioni significativamente inferiori rispetto a un segmentatore supervisionato come Mask2Former. Questa osservazione sottolinea l’indispensabilità della supervisione della segmentazione durante l’addestramento per un TTA efficace.

La potenza di Slot-TTA si estende alla sintesi e alla decomposizione di nuove viste di immagini RGB inedite. Utilizzando lo stesso dataset e la stessa divisione tra addestramento e test di prima, i ricercatori valutano la qualità di ricostruzione precisa dei pixel di Slot-TTA e l’accuratezza dell’ARI di segmentazione per cinque nuove viste di immagini inedite. Questa valutazione include viste che non sono state viste durante l’addestramento di TTA. I risultati sono sorprendenti.

La qualità della resa di Slot-TTA su questi punti di vista inediti migliora significativamente con l’adattamento al momento del test, mostrando la sua capacità di migliorare la segmentazione e la qualità della resa in scenari nuovi. In contrasto, Semantic-NeRF, un formidabile concorrente, fatica a generalizzare a questi punti di vista inediti, evidenziando l’adattabilità e il potenziale di Slot-TTA.

In conclusione, Slot-TTA rappresenta un significativo passo avanti nella visione artificiale, affrontando la sfida di adattare modelli di segmentazione a scenari reali diversi. Unendo tecniche di rendering incentrate sulle slot, metodi di segmentazione avanzati e adattamento al momento del test, Slot-TTA offre notevoli miglioramenti nella precisione della segmentazione e nella versatilità. Questa ricerca non solo rivela le limitazioni del modello, ma apre anche la strada a future innovazioni nella visione artificiale. Slot-TTA promette di migliorare l’adattabilità dei modelli di segmentazione delle istanze nel sempre più evoluto panorama della visione artificiale.