I ricercatori di AI di SalesForce presentano OVIS senza maschera un generatore di maschere di segmentazione di istanze a vocabolario aperto.

SalesForce's AI researchers present OVIS, an open vocabulary instance segmentation mask generator without masks.

La segmentazione delle istanze si riferisce al compito di visione artificiale di identificare e differenziare più oggetti che appartengono alla stessa classe all’interno di un’immagine trattandoli come entità distinte. Negli ultimi anni, c’è stato un significativo aumento nel numero di tecniche di segmentazione di istanze a causa dei rapidi progressi nelle tecniche di deep learning. Ad esempio, le reti neurali convoluzionali (CNN) e altre architetture innovative come Mask R-CNN sono utilizzate per la segmentazione delle istanze. La caratteristica dominante di tali tecniche è che combinano le capacità di rilevamento degli oggetti con la segmentazione pixel-wise per identificare gli oggetti e generare maschere accurate per ogni istanza all’interno di un’immagine, portando ad una migliore comprensione dell’immagine complessiva.

Tuttavia, esiste un certo svantaggio nei modelli di rilevamento esistenti riguardo al numero di categorie di base che possono identificare. I precedenti tentativi hanno indicato che se un modello di rilevamento viene addestrato sul dataset COCO, la sua capacità di rilevare circa 80 categorie può essere raggiunta. Tuttavia, qualsiasi categoria aggiuntiva richiederebbe l’intervento umano, che è laborioso e richiede molto tempo. Per contrastare questo, esistono metodi Open Vocabulary (OV) che utilizzano coppie immagine-didascalia e modelli di linguaggio visivo per apprendere nuove categorie. Tuttavia, ci sono enormi differenze nella supervisione quando si tratta di apprendere dalle categorie di base e di quelle nuove. Questo spesso porta all’overfitting sulle categorie di base e alla scarsa generalizzazione a quelle nuove. Di conseguenza, esiste una forte necessità di una metodologia che possa migliorare questi metodi di rilevamento per rilevare nuove categorie senza troppo intervento umano. Ciò renderebbe i modelli più pratici e scalabili per le applicazioni reali.

Per affrontare questo problema, i ricercatori di Salesforce AI hanno ideato un metodo in cui le annotazioni del bounding box e della maschera dell’istanza vengono generate da una coppia immagine-didascalia. Il loro metodo proposto, The Mask-free OVIS pipeline, sfrutta la debole supervisione utilizzando pseudomask annotations derivati da un modello di linguaggio-visivo per apprendere categorie di base e nuove. Questo approccio elimina la necessità di annotazione umana laboriosa e affronta il problema dell’overfitting. Le valutazioni sperimentali hanno dimostrato che la loro metodologia supera i modelli di segmentazione di istanze open vocabulary state-of-the-art esistenti. Inoltre, la loro ricerca è stata riconosciuta e accettata alla prestigiosa Computer Vision and Pattern Recognition Conference del 2023.

I ricercatori di Salesforce hanno ideato una pipeline che consiste in due fasi principali: generazione di pseudo-maschere e segmentazione delle istanze a vocabolario aperto. Nella prima fase, viene creata un’annotazione di pseudo-maschera per l’oggetto di interesse dalla coppia immagine-didascalia. Utilizzando un modello di linguaggio visivo pre-addestrato, il nome dell’oggetto serve come prompt di testo per localizzare l’oggetto. Inoltre, viene eseguito un processo di mascheramento iterativo con GradCAM per raffinare la pseudo-maschera e assicurarsi che copra l’intero oggetto con precisione. Nella seconda fase, viene addestrata una rete di segmentazione con supervisione debole (WSS) per selezionare la proposta con la maggiore sovrapposizione con la mappa di attivazione GradCAM utilizzando i bounding box generati in precedenza. Infine, viene addestrato un modello Mask-RCNN utilizzando le pseudo-annotazioni generate, completando la pipeline.

La pipeline, quindi, elimina la necessità di qualsiasi coinvolgimento umano sfruttando la potenza dei modelli di linguaggio visivo pre-addestrati e dei modelli con supervisione debole per generare automaticamente le pseudo-annotazioni di maschera che possono essere utilizzate come dati di addestramento aggiuntivi. Per valutare la loro pipeline, i ricercatori hanno condotto diverse prove su dataset ricercati come MS-COCO e OpenImages. I risultati hanno dimostrato che l’utilizzo di pseudo-annotazioni nel loro approccio porta a prestazioni eccezionali nelle attività di rilevamento e segmentazione di istanze, superando altri metodi che dipendono da annotazioni umane. L’approccio guidato dalla visione linguistica unico nel suo genere alla generazione di pseudo-annotazioni, ideato dai ricercatori di Salesforce, apre la strada per l’origine di modelli di segmentazione di istanze più avanzati e precisi che eliminano la necessità di annotatori umani.