Cosa possono fare gli schizzi umani per il rilevamento degli oggetti? Approfondimenti sulla ricerca delle immagini basata sugli schizzi
Il ruolo degli schizzi umani nel rilevamento degli oggetti approfondimenti sulla ricerca di immagini basata sugli schizzi
Dai tempi preistorici, gli esseri umani hanno utilizzato gli schizzi per comunicare e documentare idee. Anche in presenza del linguaggio, la loro capacità espressiva rimane insuperata. Considera i momenti in cui senti il bisogno di ricorrere a penna e carta (o una lavagna Zoom) per schizzare un’idea.
Nell’ultimo decennio, la ricerca sugli schizzi ha registrato una crescita significativa. Una vasta gamma di studi ha coperto vari aspetti, compiti tradizionali come classificazione e sintesi, nonché argomenti più specifici come modellazione dell’astrazione visiva, trasferimento di stile e adeguamento del tratto continuo. Inoltre, ci sono state applicazioni divertenti e pratiche, come la conversione degli schizzi in classificatori di foto.
Tuttavia, l’esplorazione dell’espressività degli schizzi si è concentrata principalmente sul recupero di immagini basato sugli schizzi (SBIR), in particolare sulla variante a grana fine (FGSBIR). Ad esempio, supponendo che tu stia cercando una foto specifica di un cane nella tua collezione, schizzare la sua immagine nella mente può aiutarti a trovarla più velocemente.
- La libreria Python di OpenAI e 5 cose notevoli che ChatGPT può fare con esempi pratici in Python!
- EU AI Act Un passo promettente o una scommessa rischiosa per il futuro dell’IA?
- Perché il tuo prossimo CFO dovrebbe essere un data scientist guidare le decisioni aziendali con la data science e l’analisi dei dati
Sono stati compiuti progressi notevoli e i sistemi recenti hanno raggiunto un livello di maturità adatto per l’uso commerciale.
Nella ricerca riportata in questo articolo, gli autori esplorano il potenziale degli schizzi umani per migliorare le attività fondamentali di visione, concentrandosi in particolare sulla rilevazione degli oggetti. Una panoramica dell’approccio proposto è presentata nella figura seguente.
Lo scopo è sviluppare un framework di rilevazione degli oggetti abilitato per gli schizzi che rileva gli oggetti in base al contenuto dello schizzo, consentendo agli utenti di esprimersi visivamente. Ad esempio, quando una persona schizza una scena come “una zebra che mangia l’erba”, il framework proposto dovrebbe essere in grado di rilevare quella specifica zebra tra un branco di zebre, utilizzando una rilevazione consapevole delle istanze. Inoltre, permetterà agli utenti di essere specifici riguardo alle parti degli oggetti, consentendo la rilevazione consapevole delle parti. Pertanto, se qualcuno desidera concentrarsi solo sulla “testa” della “zebra”, può schizzare la testa della zebra per ottenere questo risultato desiderato.
Al posto di sviluppare un modello di rilevazione degli oggetti abilitato per gli schizzi da zero, i ricercatori dimostrano un’integrazione senza soluzione di continuità tra modelli di base, come CLIP, e modelli SBIR disponibili, che affronta elegantemente il problema. Questo approccio sfrutta i punti di forza di CLIP per la generalizzazione del modello e SBIR per colmare il divario tra gli schizzi e le foto.
Per raggiungere questo obiettivo, gli autori adattano CLIP per creare encoder di schizzi e foto (rami all’interno di un modello SBIR condiviso) addestrando vettori di prompt indipendenti separatamente per ogni modalità. Durante l’addestramento, questi vettori di prompt vengono aggiunti alla sequenza di input del primo livello trasformatore del backbone ViT di CLIP, mentre i restanti parametri vengono mantenuti congelati. Questa integrazione introduce la generalizzazione del modello alle distribuzioni di schizzi e foto apprese.
Sono riportati di seguito alcuni risultati specifici per il compito di recupero incrociato FG-SBIR tra categorie.
Questo è stato il riassunto di una nuova tecnica di intelligenza artificiale per il recupero di immagini basato sugli schizzi. Se sei interessato e desideri saperne di più su questo lavoro, puoi trovare ulteriori informazioni cliccando sui link seguenti.