Come Possiamo Avanzare nel Riconoscimento degli Oggetti nell’Intelligenza Artificiale? Questo Articolo sull’Intelligenza Artificiale Presenta GLEE un Modello Fondamentale a Livello di Oggetti Universale per un’Analisi Migliorata di Immagini e Video

Come Possiamo Avanzare nel Riconoscimento degli Oggetti nell'Intelligenza Artificiale? Questo Articolo sull'Intelligenza Artificiale Presenta GLEE, un Modello di Oggetti Universale per un'Analisi Migliorata di Immagini e Video

La percezione degli oggetti nelle immagini e nei video libera il potere delle macchine nel decifrare il mondo visivo. Come veri investigatori virtuali, i sistemi di visione computerizzata esaminano i pixel, riconoscendo, tracciando e comprendendo la miriade di oggetti che dipingono la tela delle esperienze digitali. Questa abilità tecnologica, alimentata dalla magia dell’apprendimento profondo, apre le porte ad applicazioni trasformative, dalla guida autonoma di automobili alla navigazione dei paesaggi urbani, agli assistenti virtuali che aggiungono più intelligenza agli incontri visivi.

I ricercatori dell’Università di Scienza e Tecnologia di Huazhong, di ByteDance Inc. e dell’Università Johns Hopkins presentano GLEE, un modello versatile per la percezione degli oggetti nelle immagini e nei video. GLEE eccelle nel localizzare e identificare gli oggetti, dimostrando una superiorità di generalizzazione su diverse attività senza adattamenti specifici all’attività. La sua adattabilità si estende all’integrazione di modelli di linguaggio ampi, offrendo informazioni sul livello degli oggetti universali per studi multimodali. La capacità del modello di acquisire conoscenze da diverse fonti di dati aumenta l’efficacia nella gestione di diverse attività di percezione degli oggetti con miglior efficienza.

GLEE integra un codificatore di immagini, un codificatore di testo e un suggeritore visivo per il trattamento di input multimodali e la previsione generalizzata della rappresentazione degli oggetti. Addestrato su diversi set di dati come Objects365, COCO e Visual Genome, GLEE utilizza un framework unificato per rilevare, segmentare, tracciare, ancorare e identificare oggetti in scenari mondo aperto. Basato su MaskDINO con una testa di classe dinamica, il decodificatore degli oggetti utilizza il calcolo di similarità per la previsione. Dopo il preaddestramento sulla rilevazione degli oggetti e la segmentazione delle istanze, l’addestramento congiunto porta a prestazioni all’avanguardia su varie attività di immagini e video.

GLEE mostra una notevole versatilità e una generalizzazione migliorata, affrontando efficacemente diverse attività senza adattamenti specifici all’attività. Eccelle in varie attività di immagini e video, come la rilevazione degli oggetti, la segmentazione delle istanze, la localizzazione, il tracciamento multi-target, la segmentazione delle istanze video, la segmentazione degli oggetti video e la segmentazione e tracciamento interattivi. GLEE mantiene prestazioni all’avanguardia quando è integrato in altri modelli, mostrando la versatilità e l’efficacia delle sue rappresentazioni. La generalizzazione zero-shot del modello è ulteriormente migliorata incorporando grandi volumi di dati etichettati automaticamente. Inoltre, GLEE funge da modello fondamentale.

https://arxiv.org/abs/2312.09158

GLEE è un rivoluzionario modello di fondazione generale degli oggetti che supera le limitazioni dei modelli di fondazione visiva attuali, fornendo informazioni accurate e universali sul livello degli oggetti. Affronta abilmente diverse attività incentrate sugli oggetti, mostrando una notevole versatilità e una generalizzazione superiore, eccellendo in particolare in scenari di trasferimento zero-shot. GLEE incorpora diverse fonti di dati per rappresentazioni di oggetti generiche, consentendo l’espansione scalabile dei dataset e migliorando le capacità zero-shot. Con un supporto unificato per i dati da multi-fonte, il modello può gestire annotazioni aggiuntive, ottenendo prestazioni all’avanguardia su diverse attività successive, superando i modelli esistenti, anche in scenari zero-shot.

La portata della ricerca finora condotta e l’orientamento per la ricerca futura possono essere concentrati sui seguenti punti:

  • La ricerca in corso mira ad ampliare le capacità di GLEE nel gestire scenari complessi e dataset sfidanti, in particolare quelli con distribuzioni a coda lunga, per migliorare la sua adattabilità.
  • L’integrazione di modelli specializzati mira ad utilizzare le rappresentazioni di oggetti universali di GLEE, in modo da migliorare le sue prestazioni nelle attività multimodali.
  • I ricercatori stanno esplorando anche il potenziale di GLEE nella generazione di contenuti d’immagine dettagliati basati su istruzioni testuali, simili a modelli come DALL-E, addestrandolo su ampi coppie di immagini-didascalie.
  • Migliorano le informazioni sugli oggetti di GLEE incorporando contesto semantico, che può ampliare la sua applicazione nelle attività a livello di oggetti.
  • Lo sviluppo ulteriore delle capacità di segmentazione e tracciamento interattivi include l’esplorazione di vari suggerimenti visivi e il perfezionamento delle competenze di segmentazione degli oggetti.