I ricercatori di Google introducono RO-ViT un metodo di intelligenza artificiale semplice per preaddestrare i Vision Transformers in modo consapevole delle regioni al fine di migliorare la rilevazione del vocabolario aperto.

I ricercatori di Google introducono RO-ViT, un metodo di intelligenza artificiale per migliorare la rilevazione del vocabolario aperto.

Gli avanzamenti recenti hanno permesso ai computer di interpretare e comprendere informazioni visive dal mondo, proprio come la visione umana. Ciò implica l’elaborazione, l’analisi ed l’estrazione di informazioni significative da immagini e video. La visione artificiale consente l’automazione di compiti che richiedono interpretazione visiva, riducendo la necessità di intervento manuale. La rilevazione degli oggetti è un compito di visione artificiale che consiste nell’identificare e localizzare più oggetti di interesse all’interno di un’immagine o di un fotogramma video.

La rilevazione degli oggetti mira a determinare quali oggetti sono presenti nella scena e fornisce informazioni su dove si trovano all’interno dell’immagine. La maggior parte dei moderni rilevatori di oggetti si basa su annotazioni manuali di regioni e etichette di classe, il che limita la loro dimensione del vocabolario e rende costoso l’aumento della scala ulteriormente.

I modelli visione-linguaggio (VLM) possono essere utilizzati al posto di ponte tra il preaddestramento a livello di immagine e il raffinamento a livello di oggetto. Tuttavia, la nozione di oggetti/regioni deve essere adeguatamente utilizzata nel processo di preaddestramento in tali modelli.

Ricercatori di Google Brain presentano un modello semplice per colmare il divario tra il preaddestramento a livello di immagine e il raffinamento a livello di oggetto. Presentano Region-aware Open-vocabulary Vision Transformers (RO-ViT) per completare il compito.

RO-ViT è un modo semplice per preaddestrare transformers di visione in modo consapevole delle regioni per la rilevazione di oggetti a vocabolario aperto. Il preaddestramento standard richiede l’uso completo di posizionamenti di immagini. Invece, i ricercatori ritagliano e ridimensionano casualmente regioni di posizionamenti anziché utilizzare i posizionamenti completi dell’immagine. Chiamano questo metodo “Cropped Positional Embedding”.

Il team ha dimostrato che il preaddestramento immagine-testo con focal loss è più efficace rispetto alle esistenti softmax CE loss. Hanno anche proposto varie tecniche di rilevamento degli oggetti innovative. Sostengono che gli approcci esistenti spesso perdono oggetti nuovi nella fase di proposta degli oggetti perché le proposte devono spesso essere più bilanciate.

Il team afferma che il loro modello RO-ViT raggiunge il miglior risultato di rilevamento di vocabolario aperto LVIS. Le loro statistiche dicono che lo raggiunge su 9 su 12 metriche dei benchmark di recupero immagine-testo. Ciò riflette che la rappresentazione appresa è utile a livello regionale ed estremamente efficace nella rilevazione di vocabolario aperto.

Con l’avanzare della tecnologia di rilevamento degli oggetti, lo sviluppo, il dispiegamento e la regolamentazione responsabili saranno cruciali per garantire che i suoi impatti positivi siano massimizzati, riducendo al contempo i potenziali rischi. Nel complesso, i progressi continui nella tecnologia di rilevamento degli oggetti si prevede che contribuiranno ad un futuro più luminoso rivoluzionando industrie, migliorando la sicurezza e la qualità della vita e consentendo innovazioni che una volta erano considerate fantascienza.

Consulta il Paper e Google Blog. Tutto il credito per questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di unirti al nostro subreddit di intelligenza artificiale con più di 29k membri, la nostra community di Facebook con più di 40k membri, il nostro canale Discord e la nostra newsletter via email, dove condividiamo le ultime novità sulla ricerca di intelligenza artificiale, interessanti progetti di IA e altro ancora.

Se ti piace il nostro lavoro, adorerai la nostra newsletter.

L’articolo Ricercatori di Google presentano RO-ViT: un semplice metodo di IA per preaddestrare transformers di visione in modo consapevole delle regioni per migliorare la rilevazione di vocabolario aperto è apparso per primo su MarkTechPost.