I ricercatori dell’Università di Surrey lanciano un innovativo strumento di rilevamento oggetti basato su schizzi nel Machine Learning.

Researchers from the University of Surrey launch an innovative object detection tool based on sketches in Machine Learning.

Fin dai tempi preistorici, le persone hanno utilizzato schizzi per la comunicazione e la documentazione. Negli ultimi dieci anni, i ricercatori hanno compiuto grandi progressi nella comprensione di come utilizzare gli schizzi, dalla classificazione e sintesi a nuove applicazioni come la modellazione dell’astrazione visiva, il trasferimento dello stile e il fitting del tratto continuo. Tuttavia, solo il recupero delle immagini basato sugli schizzi (SBIR) e il suo controparte a grana fine (FGSBIR) hanno esplorato il potenziale espressivo degli schizzi. I sistemi recenti sono già maturi per l’adattamento commerciale, un fantastico testamento di come lo sviluppo dell’espressività degli schizzi possa avere un effetto significativo.

Gli schizzi sono incredibilmente evocativi perché catturano automaticamente indizi visivi sfumati e personali. Tuttavia, lo studio di queste qualità innate dello schizzare umano è stato confinato nel campo del recupero delle immagini. Per la prima volta, gli scienziati stanno addestrando i sistemi ad utilizzare il potere evocativo degli schizzi per il compito più fondamentale della visione: rilevare oggetti in una scena. Il prodotto finale è un framework per la rilevazione degli oggetti basato sugli schizzi, in modo da poter concentrarsi sullo specifico “zebra” (ad esempio, uno che mangia l’erba) in un branco di zebre. Inoltre, i ricercatori impongono che il modello sia efficace senza:

  • Andare in fase di testing con un’idea di che tipo di risultati aspettarsi (zero-shot).
  • Non richiedere caselle di confine o etichette di classe aggiuntive (come in pienamente supervisionato).

I ricercatori stipulano inoltre che il rilevatore basato sugli schizzi funziona anche in modo zero-shot, aumentando la novità del sistema. Nelle sezioni che seguono, dettagliano come passare dalla rilevazione degli oggetti da un set chiuso a una configurazione open-vocab. I rilevatori di oggetti, ad esempio, utilizzano l’apprendimento di prototipi invece delle testate di classificazione, con le funzionalità di schizzo di query codificate che fungono da set di supporto. Il modello viene quindi addestrato con una perdita di entropia incrociata multicategoria su tutti i prototipi di categorie o istanze concepibili in un ambiente di rilevamento degli oggetti debolmente supervisionato (WSOD). Il rilevamento degli oggetti opera a livello di immagine, mentre SBIR è addestrato con coppie di schizzi e foto di oggetti individuali. A causa di ciò, la formazione del rilevatore di oggetti SBIR richiede un ponte tra le caratteristiche a livello di oggetto e a livello di immagine.

Le contribuzioni dei ricercatori sono:

  • Coltivare l’espressività dello schizzo umano per la rilevazione degli oggetti.
  • Un rilevatore di oggetti costruito sopra lo schizzo che può capire cosa si sta cercando di comunicare.
  • Un rilevatore per oggetti in grado di rilevare il livello di categoria tradizionale e il livello di istanza e parte.
  • Una nuova configurazione di apprendimento prompt che combina CLIP e SBIR per produrre un rilevatore consapevole dello schizzo in grado di funzionare in modo zero-shot senza annotazioni di scatole di confine o etichette di classe.
  • I risultati sono superiori a SOD e WSOD in un ambiente zero-shot.

Invece di partire da zero, i ricercatori hanno dimostrato una sinergia intuitiva tra i modelli fondamentali (come CLIP) e i modelli di schizzo esistenti costruiti per il recupero delle immagini basato sugli schizzi (SBIR), che già riescono elegantemente a risolvere il compito. In particolare, conducendo prima una prompt separata sui rami di schizzo e foto di un modello SBIR, utilizzano poi la capacità di generalizzazione di CLIP per costruire codificatori di schizzo e foto altamente generalizzabili. Per garantire che le funzionalità di regione delle caselle rilevate corrispondano a quelle degli schizzi e delle foto SBIR, progettano un paradigma di formazione per regolare i codificatori appresi per la rilevazione degli elementi. Il framework supera i rilevatori di oggetti supervisionati (SOD) e debolmente supervisionati (WSOD) in configurazioni zero-shot quando testato su set di dati di rilevamento degli oggetti di standard industriale, tra cui PASCAL-VOC e MS-COCO.

Per riassumere

Per migliorare la rilevazione degli oggetti, i ricercatori incoraggiano attivamente l’espressività degli esseri umani nello schizzare. Il framework suggerito per l’identificazione degli oggetti abilitata per lo schizzo è un rilevatore di oggetti a conoscenza di istanza e parte che può comprendere ciò che si sta cercando di comunicare in uno schizzo. Di conseguenza, ideano una configurazione di apprendimento prompt innovativa che unisce CLIP e SBIR per educare un rilevatore consapevole dello schizzo che funziona senza annotazioni di caselle di confine o etichette di classe. Il rilevatore è anche specificato per funzionare in modo zero-shot per vari scopi. D’altra parte, SBIR viene insegnato attraverso coppie di schizzi e foto di una singola cosa. Utilizzano un approccio di aumento dei dati che aumenta la resistenza alla corruzione e la generalizzazione al di fuori del vocabolario per aiutare a colmare il divario tra il livello di oggetto e il livello di immagine. Il framework risultante supera i rilevatori di oggetti supervisionati e debolmente supervisionati in un ambiente zero-shot.