Rileva tutto ciò che desideri con UniDetector

UniDetector detect everything you want

L’apprendimento profondo e l’IA hanno fatto notevoli progressi negli ultimi anni, soprattutto nei modelli di rilevamento. Nonostante questi impressionanti avanzamenti, l’efficacia dei modelli di rilevamento degli oggetti dipende fortemente dai dataset di benchmark su larga scala. Tuttavia, la sfida risiede nella variazione delle categorie di oggetti e delle scene. Nel mondo reale, ci sono differenze significative rispetto alle immagini esistenti e possono emergere nuove classi di oggetti, rendendo necessaria la ricostruzione dei dataset per garantire il successo dei rilevatori di oggetti. Purtroppo, ciò influisce negativamente sulla loro capacità di generalizzare in scenari di mondo aperto. Al contrario, gli esseri umani, anche i bambini, possono adattarsi rapidamente e generalizzare bene in nuovi ambienti. Di conseguenza, la mancanza di universalità nell’IA rimane una differenza significativa tra i sistemi di intelligenza artificiale e l’intelligenza umana.

La chiave per superare questa limitazione è lo sviluppo di un rilevatore di oggetti universale per ottenere capacità di rilevamento su tutti i tipi di oggetti in qualsiasi scena data. Un tale modello possederebbe la notevole capacità di funzionare efficacemente in situazioni sconosciute senza richiedere ulteriori riaddestramenti. Una tale svolta avvicinerebbe significativamente l’obiettivo di rendere i sistemi di rilevamento degli oggetti tanto intelligenti quanto gli esseri umani.

Un rilevatore di oggetti universale deve possedere due abilità fondamentali. In primo luogo, dovrebbe essere addestrato utilizzando immagini provenienti da varie fonti e spazi di etichette diversi. L’addestramento collaborativo su larga scala per la classificazione e la localizzazione è essenziale per garantire che il rilevatore acquisisca informazioni sufficienti per generalizzare in modo efficace. L’ideale dataset di apprendimento su larga scala dovrebbe includere molti tipi di immagini, abbracciando il maggior numero possibile di categorie, con annotazioni di bounding box di alta qualità ed estese vocabolari di categorie. Purtroppo, raggiungere tale diversità è difficile a causa delle limitazioni imposte dagli annotatori umani. In pratica, mentre i dataset con vocabolario ridotto offrono annotazioni più pulite, quelli più ampi sono più rumorosi e possono soffrire di incongruenze. Inoltre, i dataset specializzati si concentrano su categorie specifiche. Per raggiungere l’universalità, il rilevatore deve imparare da più fonti con spazi di etichette variabili per acquisire conoscenze complete e approfondite.

In secondo luogo, il rilevatore dovrebbe dimostrare una robusta generalizzazione al mondo aperto. Dovrebbe essere in grado di prevedere accuratamente le etichette di categoria per classi nuove non viste durante l’addestramento senza alcuna significativa perdita di prestazioni. Tuttavia, affidarsi esclusivamente alle informazioni visive non può raggiungere questo scopo, poiché un apprendimento visivo completo richiede annotazioni umane per l’apprendimento completamente supervisionato.

Per superare queste limitazioni, è stato proposto un nuovo modello di rilevamento universale degli oggetti denominato “UniDetector”.

Una panoramica dell’architettura è riportata nell’illustrazione sottostante.

Due sfide corrispondenti devono essere affrontate per raggiungere le due abilità essenziali di un rilevatore di oggetti universale. La prima sfida riguarda l’addestramento con immagini provenienti da più fonti, in cui le immagini provengono da diverse fonti e sono associate a spazi di etichette diversi. I rilevatori esistenti sono limitati nella previsione di classi da un solo spazio di etichette e le differenze nella tassonomia specifica del dataset e l’incoerenza delle annotazioni tra i dataset rendono difficile unificare più spazi di etichette eterogenei.

La seconda sfida riguarda la discriminazione delle categorie nuove. Ispirandosi al successo del pre-addestramento immagine-testo nelle ricerche recenti, gli autori utilizzano modelli pre-addestrati con embedding del linguaggio per riconoscere categorie non viste in precedenza. Tuttavia, l’addestramento completamente supervisionato tende a sbilanciare il rilevatore verso le categorie presenti durante l’addestramento. Di conseguenza, il modello potrebbe essere distorto verso le classi di base al momento dell’inferenza e produrre previsioni poco sicure per le classi nuove. Sebbene gli embedding del linguaggio offrano il potenziale per prevedere classi nuove, le loro prestazioni sono ancora significativamente inferiori rispetto a quelle delle categorie di base.

UniDetector è stato progettato per affrontare le sfide sopra descritte. Utilizzando lo spazio del linguaggio, i ricercatori esplorano diverse strutture per addestrare il rilevatore in modo efficace con spazi di etichette eterogenei. Scoprono che l’impiego di una struttura suddivisa facilita la condivisione delle caratteristiche evitando conflitti di etichette, il che è vantaggioso per le prestazioni del rilevatore.

Per migliorare la capacità di generalizzazione della fase di generazione delle proposte di regione verso classi nuove, gli autori separano la fase di generazione delle proposte dalla fase di classificazione delle RoI (Region of Interest), optando per l’addestramento separato anziché l’addestramento congiunto. Questo approccio sfrutta le caratteristiche uniche di ogni fase, contribuendo all’universalità complessiva del rilevatore. Inoltre, introducono una rete di localizzazione agnostica alla classe (CLN) per ottenere proposte di regione generalizzate.

Inoltre, gli autori propongono una tecnica di calibrazione della probabilità per correggere i pregiudizi delle previsioni. Stimano la probabilità precedente di tutte le categorie e poi regolano la distribuzione prevista delle categorie in base a questa probabilità precedente. Questa calibrazione migliora significativamente le prestazioni delle nuove classi all’interno del sistema di rilevamento degli oggetti. Secondo gli autori, UniDetector può superare Dyhead, il rilevatore CNN all’avanguardia, del 6,3% AP (Precisione Media).

Questo era il riassunto di UniDetector, un nuovo framework di intelligenza artificiale progettato per il rilevamento universale degli oggetti. Se sei interessato e vuoi saperne di più su questo lavoro, puoi trovare ulteriori informazioni cliccando sui link sottostanti.