Ricercatori di Google e Georgia Tech presentano DiffSeg un semplice metodo di intelligenza artificiale per la creazione di maschere di segmentazione attraverso il post-processing.

Google and Georgia Tech researchers present DiffSeg, a simple AI method for creating segmentation masks through post-processing.

L’obiettivo della task di computer vision nota come segmentazione semantica è assegnare una classe o un oggetto ad ogni pixel in un’immagine. L’intento è ottenere una mappa di segmentazione pixel-by-pixel densa di un’immagine, in cui ogni pixel corrisponde ad un tipo o oggetto specifico. Molteplici processi successivi si basano su di essa come precursore, inclusi la manipolazione di immagini, l’imaging medico, la guida autonoma, ecc. La segmentazione zero-shot per immagini con categorie sconosciute è molto più difficile rispetto alla segmentazione semantica supervisionata, in cui viene fornito un dataset di destinazione e le categorie sono note.

Un notevole trasferimento zero-shot su qualsiasi immagine viene ottenuto addestrando una rete neurale con 1,1 miliardi di annotazioni di segmentazione, come dimostrato nell’ultimo lavoro popolare SAM. Questo è un passo significativo per garantire che la segmentazione possa essere utilizzata come un blocco di costruzione per varie attività anziché essere limitata ad un dataset specifico con etichette predefinite. Tuttavia, è costoso raccogliere etichette per ogni pixel. Per questo motivo, l’esplorazione di tecniche di segmentazione non supervisionate e zero-shot nelle situazioni meno vincolate (ossia senza annotazioni e senza conoscenza preventiva del target) è di grande interesse nella ricerca e nella produzione.

Ricercatori di Google e Georgia Tech propongono di sfruttare la potenza di un modello di diffusione stabile (SD) per costruire un modello di segmentazione universale. Recentemente, i modelli di diffusione stabile hanno generato immagini ad alta risoluzione con prompt ottimali. In un modello di diffusione, è plausibile assumere la presenza di dati sugli insiemi di oggetti.

Dato che i livelli di autoattenzione in un modello di diffusione producono tensori di attenzione, il team ha introdotto DiffSeg, un metodo di post-processing semplice ma efficace per creare maschere di segmentazione. I tre elementi principali dell’algoritmo sono aggregazione di attenzione, fusione di attenzione in modo iterativo e soppressione non massimale. DiffSeg utilizza una tecnica di fusione iterativa che inizia campionando una griglia di punti di ancoraggio per aggregare i tensori di attenzione 4D in modo spazialmente coerente, preservando così le informazioni visive attraverso diverse risoluzioni. I punti di ancoraggio campionati fungono da punti di partenza per le maschere di attenzione che fondono oggetti simili. La divergenza KL determina il grado di somiglianza tra due mappe di attenzione, che controlla il processo di fusione.

DiffSeg è una popolare alternativa agli algoritmi di segmentazione non supervisionata basati su clustering comuni perché è deterministico e non richiede un input sul numero di cluster. DiffSeg può prendere un’immagine in input e generare una segmentazione di alta qualità senza alcuna conoscenza preventiva o attrezzatura specializzata (come fa SAM).

Nonostante utilizzi meno dati ausiliari rispetto agli sforzi precedenti, DiffSeg ottiene risultati migliori su entrambi i dataset. I ricercatori valutano DiffSeg su due dataset ampiamente utilizzati: COCO-Stuff-27 per la segmentazione non supervisionata e Cityscapes, un dataset dedicato alla guida autonoma. Rispetto ad un metodo SOTA zero-shot non supervisionato precedente, il metodo proposto migliora le prestazioni di un 26% di precisione dei pixel e del 17% in mean IoU su COCO-Stuff-27.