Rivoluzionare la rilevazione del cancro l’Università di Surrey lancia uno strumento di rilevamento oggetti basato su schizzi rivoluzionario nel campo del Machine Learning.

The University of Surrey launches a revolutionary cancer detection tool based on sketch-based object detection in the field of Machine Learning.

Sin dai tempi preistorici, le persone hanno utilizzato gli schizzi per la comunicazione e la documentazione. Negli ultimi dieci anni, i ricercatori hanno compiuto grandi progressi nella comprensione di come utilizzare gli schizzi, dalla classificazione e sintesi a applicazioni più innovative come la modellazione dell’astrazione visiva, il trasferimento di stile e la forma continua di adattamento. Tuttavia, solo il recupero di immagini basato su schizzi (SBIR) e il suo controparte dettagliata (FGSBIR) hanno indagato il potenziale espressivo degli schizzi. I sistemi recenti sono già maturi per l’adattamento commerciale, un fantastico testamento su come lo sviluppo dell’espressività degli schizzi possa avere un effetto significativo.

Gli schizzi sono estremamente evocativi perché catturano automaticamente indizi visivi sfumati e personali. Tuttavia, lo studio di queste qualità inherentemente umane degli schizzi è stato limitato al campo del recupero di immagini. Per la prima volta, gli scienziati stanno addestrando i sistemi per utilizzare il potere evocativo degli schizzi per il compito più fondamentale nella visione: rilevare gli oggetti in una scena. Il prodotto finale è un framework per la rilevazione degli oggetti basato sugli schizzi, in modo da poter concentrarsi sullo specifico “zebra” (ad esempio, uno che mangia l’erba) in un branco di zebre. Inoltre, i ricercatori impongono che il modello sia efficace senza:

  • Andare in prova con un’idea di che tipo di risultati aspettarsi (zero-shot).
  • Non richiedere box di delimitazione extra o etichette di classe (come nella supervisione completa).

I ricercatori stabiliscono inoltre che il rilevamento basato sugli schizzi funziona anche in modalità zero-shot, aumentando la novità del sistema. Nelle sezioni seguenti, dettagliano come passare dal rilevamento degli oggetti da un insieme chiuso a una configurazione a vocabolario aperto. I rilevatori di oggetti, ad esempio, utilizzano l’apprendimento basato su prototipi invece delle teste di classificazione, con le funzioni di query degli schizzi codificate che fungono da set di supporto. Il modello viene quindi addestrato con una perdita di entropia incrociata multicategoria su tutti i prototipi di tutte le categorie o istanze concepibili in un ambiente di rilevazione oggetti debole supervisionato (WSOD). Il rilevamento degli oggetti opera a livello di immagine, mentre SBIR è addestrato con coppie di schizzi e foto di oggetti singoli. A causa di ciò, la formazione del rilevatore di oggetti SBIR richiede un ponte tra le caratteristiche a livello di oggetto e quelle a livello di immagine.

Le contribuzioni dei ricercatori sono:

  • Coltivare l’espressività degli schizzi umani per la rilevazione degli oggetti.
  • Un rilevatore di oggetti costruito sulla base degli schizzi che può capire ciò che si sta cercando di comunicare.
  • Un rilevatore di oggetti in grado di rilevazione a livello di categoria tradizionale e a livello di istanza e parte.
  • Una nuova configurazione di apprendimento basata su prompt che combina CLIP e SBIR per produrre un rilevatore consapevole degli schizzi che può funzionare in modalità zero-shot senza annotazioni di box di delimitazione o etichette di classe.
  • I risultati sono superiori a SOD e WSOD in una configurazione zero-shot.

Al posto di partire da zero, i ricercatori hanno dimostrato una sinergia intuitiva tra i modelli di base (come CLIP) e i modelli di schizzo esistenti costruiti per il recupero di immagini basato su schizzi (SBIR), che già risolvono elegantemente il compito. In particolare, conducono prima una richiesta separata sui rami di schizzo e foto di un modello SBIR, quindi utilizzano la capacità di generalizzazione di CLIP per costruire codificatori di schizzo e foto altamente generalizzabili. Per garantire che gli embedding di regione dei box rilevati corrispondano a quelli degli schizzi e delle foto SBIR, progettano un paradigma di formazione per regolare i codificatori appresi per la rilevazione degli oggetti. Il framework è superiore ai rilevatori di oggetti supervisionati (SOD) e debolmente supervisionati (WSOD) su configurazioni zero-shot quando testati su dataset di rilevamento oggetti standard del settore, tra cui PASCAL-VOC e MS-COCO.

Per riassumere

Per migliorare il rilevamento degli oggetti, i ricercatori incoraggiano attivamente l’espressività umana nello schizzo. Il framework suggerito per l’identificazione degli oggetti abilitata per schizzo è un rilevatore di oggetti consapevole dell’istanza e della parte che può capire ciò che si sta cercando di comunicare in uno schizzo. Di conseguenza, ideano una configurazione innovativa di apprendimento basata su prompt che unisce CLIP e SBIR per educare un rilevatore di schizzi che funziona senza annotazioni di box di delimitazione o etichette di classe. Il rilevatore è specificato anche per funzionare in modalità zero-shot per vari scopi. D’altra parte, SBIR viene insegnato attraverso coppie di schizzi e foto di una singola cosa. Utilizzano un approccio di aumento dei dati che aumenta la resistenza alla corruzione e la generalizzazione al fuori del vocabolario per aiutare a colmare il divario tra il livello di oggetto e quello di immagine. Il framework risultante è superiore ai rilevatori di oggetti supervisionati e debolmente supervisionati in una configurazione zero-shot.