Formazione a scala web sbloccata Deepmind presenta OWLv2 e OWL-ST, gli strumenti rivoluzionari per la rilevazione di oggetti a vocabolario aperto, alimentati da tecniche di auto-addestramento senza precedenti.

Deepmind presenta OWLv2 e OWL-ST, strumenti rivoluzionari per la rilevazione di oggetti a vocabolario aperto, basati su auto-addestramento senza precedenti.

La rilevazione di oggetti a vocabolario aperto è un aspetto critico di varie attività di visione artificiale nel mondo reale. Tuttavia, la disponibilità limitata di dati di allenamento per la rilevazione e la fragilità dei modelli pre-addestrati spesso portano a prestazioni inferiori e problemi di scalabilità.

Per affrontare questa sfida, il team di ricerca di DeepMind presenta il modello OWLv2 nel loro ultimo articolo, “Scaling Open-Vocabulary Object Detection”. Questa architettura ottimizzata migliora l’efficienza di allenamento e incorpora la ricetta di auto-addestramento OWL-ST, migliorando sostanzialmente le prestazioni di rilevamento e ottenendo risultati all’avanguardia nel compito di rilevamento a vocabolario aperto.

L’obiettivo principale di questo lavoro è ottimizzare lo spazio dei label, il filtraggio delle annotazioni e l’efficienza di allenamento per l’approccio di auto-addestramento per la rilevazione a vocabolario aperto, raggiungendo infine prestazioni robuste e scalabili a vocabolario aperto con dati etichettati limitati.

L’approccio di auto-addestramento proposto consiste in tre passaggi chiave:

  1. Il team utilizza un rilevatore a vocabolario aperto esistente per eseguire la rilevazione di oggetti aperti su WebLI, un dataset di immagini-testo su larga scala.
  2. Utilizzano OWL-ViT CLIP-L/14 per annotare tutte le immagini di WebLI con pseudonotazioni di bounding box.
  3. Perfezionano il modello addestrato utilizzando dati di rilevazione annotati dall’uomo, affinando ulteriormente le sue prestazioni.

In modo significativo, i ricercatori utilizzano una variante dell’architettura OWL-ViT per addestrare rilevatori più efficaci. Questa architettura sfrutta modelli immagine-testo addestrati con contrasto per inizializzare gli encoder di immagini e testo, mentre le testate di rilevamento vengono inizializzate casualmente.

Nella fase di addestramento, il team utilizza le stesse perdite e aumenta le query con “pseudo-negativi” dall’architettura OWL-ViT, ottimizzando l’efficienza di addestramento per massimizzare l’utilizzo delle immagini etichettate disponibili.

Inoltre, incorporano pratiche proposte in precedenza per l’addestramento di Transformer su larga scala per migliorare ulteriormente l’efficienza di addestramento. Di conseguenza, il modello OWLv2 riduce i FLOPS di addestramento di circa il 50% e accelera il throughput di addestramento del 2× rispetto al modello OWL-ViT originale.

Il team confronta il loro approccio proposto con i precedenti rilevatori a vocabolario aperto all’avanguardia nel loro studio empirico. La tecnica OWL-ST migliora la Precisione Media (AP) delle classi rare di LVIS dal 31,2% al 44,6%. Inoltre, combinando la ricetta OWL-ST con l’architettura OWLv2 si ottengono nuove prestazioni all’avanguardia.

In generale, la ricetta OWL-ST presentata in questo articolo migliora significativamente le prestazioni di rilevamento sfruttando la supervisione debole da dati web su larga scala, consentendo l’addestramento su larga scala per la localizzazione nel mondo aperto. Questo approccio affronta le limitazioni poste dalla scarsità di dati di rilevamento etichettati e dimostra il potenziale per ottenere una rilevazione robusta di oggetti a vocabolario aperto in modo scalabile.