Cosa possono fare gli schizzi umani per il rilevamento degli oggetti? Approfondimenti sulla ricerca delle immagini basata sugli schizzi

Il ruolo degli schizzi umani nel rilevamento degli oggetti approfondimenti sulla ricerca di immagini basata sugli schizzi

Dai tempi preistorici, gli esseri umani hanno utilizzato gli schizzi per comunicare e documentare idee. Anche in presenza del linguaggio, la loro capacità espressiva rimane insuperata. Considera i momenti in cui senti il bisogno di ricorrere a penna e carta (o una lavagna Zoom) per schizzare un’idea.

Nell’ultimo decennio, la ricerca sugli schizzi ha registrato una crescita significativa. Una vasta gamma di studi ha coperto vari aspetti, compiti tradizionali come classificazione e sintesi, nonché argomenti più specifici come modellazione dell’astrazione visiva, trasferimento di stile e adeguamento del tratto continuo. Inoltre, ci sono state applicazioni divertenti e pratiche, come la conversione degli schizzi in classificatori di foto.

Tuttavia, l’esplorazione dell’espressività degli schizzi si è concentrata principalmente sul recupero di immagini basato sugli schizzi (SBIR), in particolare sulla variante a grana fine (FGSBIR). Ad esempio, supponendo che tu stia cercando una foto specifica di un cane nella tua collezione, schizzare la sua immagine nella mente può aiutarti a trovarla più velocemente.

Sono stati compiuti progressi notevoli e i sistemi recenti hanno raggiunto un livello di maturità adatto per l’uso commerciale.

Nella ricerca riportata in questo articolo, gli autori esplorano il potenziale degli schizzi umani per migliorare le attività fondamentali di visione, concentrandosi in particolare sulla rilevazione degli oggetti. Una panoramica dell’approccio proposto è presentata nella figura seguente.

https://arxiv.org/abs/2303.15149

Lo scopo è sviluppare un framework di rilevazione degli oggetti abilitato per gli schizzi che rileva gli oggetti in base al contenuto dello schizzo, consentendo agli utenti di esprimersi visivamente. Ad esempio, quando una persona schizza una scena come “una zebra che mangia l’erba”, il framework proposto dovrebbe essere in grado di rilevare quella specifica zebra tra un branco di zebre, utilizzando una rilevazione consapevole delle istanze. Inoltre, permetterà agli utenti di essere specifici riguardo alle parti degli oggetti, consentendo la rilevazione consapevole delle parti. Pertanto, se qualcuno desidera concentrarsi solo sulla “testa” della “zebra”, può schizzare la testa della zebra per ottenere questo risultato desiderato.

Al posto di sviluppare un modello di rilevazione degli oggetti abilitato per gli schizzi da zero, i ricercatori dimostrano un’integrazione senza soluzione di continuità tra modelli di base, come CLIP, e modelli SBIR disponibili, che affronta elegantemente il problema. Questo approccio sfrutta i punti di forza di CLIP per la generalizzazione del modello e SBIR per colmare il divario tra gli schizzi e le foto.

Per raggiungere questo obiettivo, gli autori adattano CLIP per creare encoder di schizzi e foto (rami all’interno di un modello SBIR condiviso) addestrando vettori di prompt indipendenti separatamente per ogni modalità. Durante l’addestramento, questi vettori di prompt vengono aggiunti alla sequenza di input del primo livello trasformatore del backbone ViT di CLIP, mentre i restanti parametri vengono mantenuti congelati. Questa integrazione introduce la generalizzazione del modello alle distribuzioni di schizzi e foto apprese.

Sono riportati di seguito alcuni risultati specifici per il compito di recupero incrociato FG-SBIR tra categorie.

https://arxiv.org/abs/2303.15149

Questo è stato il riassunto di una nuova tecnica di intelligenza artificiale per il recupero di immagini basato sugli schizzi. Se sei interessato e desideri saperne di più su questo lavoro, puoi trovare ulteriori informazioni cliccando sui link seguenti.