Questa tesi sull’IA svela ‘Vary’ un nuovo approccio per ampliare il vocabolario visivo nei modelli di visione-linguaggio grandi per avanzate attività di percezione multilingue

La tesi sull'IA su 'Vary' un nuovo metodo per arricchire il vocabolario visivo nei modelli di visione-linguaggio per un'esperienza avanzata di percezione multilingue

I modelli Large Vision-Language (LVLM) combinano computer vision e natural language processing per generare descrizioni di testo di contenuti visivi. Questi modelli hanno mostrato notevoli progressi in diverse applicazioni, tra cui la descrizione di immagini, la risposta visibile alle domande e il recupero di immagini. Tuttavia, nonostante le loro prestazioni impressionanti, i LVLM ancora affrontano alcune sfide, in particolare quando si tratta di compiti specializzati che richiedono una percezione densa e dettagliata. Il problema affrontato dal metodo Vary è il vocabolario visivo limitato dei LVLM quando si tratta di compiti specifici che richiedono una comprensione più sfumata dei contenuti visivi.

Ricercatori dell’Università di Scienza e Tecnologia di Huazhong, MEGVII Technology e dell’Università Cinese delle Scienze Accademiche hanno introdotto Vary, un metodo che potenzia i LVLM per compiti specializzati che richiedono una percezione densa. Vary permette ai LVLM di acquisire nuove caratteristiche in modo efficiente, migliorando la percezione dettagliata. I risultati degli esperimenti dimostrano l’efficacia di Vary in diverse funzioni. Riconoscendo la possibilità di miglioramento, i ricercatori hanno proposto Vary come piattaforma per ulteriori ricerche. Si nota l’utilizzo di GPT-4 per generare dati di addestramento e si sottolinea l’applicabilità di Vary a vari compiti visivi successivi, espandendo le capacità dei LVLM mantenendo allo stesso tempo quelle originali.

Lo studio affronta le limitazioni dei vocabolari visivi comuni, come CLIP-VIT, in scenari di percezione visiva densa e dettagliata, motivando la necessità di ampliare i vocabolari visivi nei LVLM. Introduce Vary, un metodo ispirato all’espansione del vocabolario di testo nei LVLM per lingue straniere. Vary genera un nuovo vocabolario visivo utilizzando una rete di vocabolario e lo integra con quello originale, con l’obiettivo di migliorare l’efficienza di codifica e le prestazioni del modello in compiti diversi come OCR non in inglese e comprensione dei grafici. Si prevede che la progettazione di Vary stimolerà ulteriori ricerche in questa direzione.

La ricerca introduce due configurazioni di Vary: Vary-tiny e Vary-base. Vary-tiny, focalizzato sulla percezione dettagliata, non ha un ramo di input di testo e utilizza un modello OPT-125M ridotto. Viene addestrato utilizzando documenti e dati di grafici come campioni positivi e immagini naturali come campioni negativi. La rete di vocabolario in Vary-tiny genera un nuovo vocabolario visivo, integrato con l’originale in Vary-base. Durante l’addestramento di Vary-base, entrambe le reti di vocabolario vengono utilizzate, congelando i loro pesi, mentre i parametri dei LVLM e i livelli di embedding di input vengono ottimizzati. I dettagli di implementazione prevedono l’ottimizzazione AdamW, un programmatore di annealing cosinusoidale e tassi di apprendimento specifici. I dati sintetici vengono creati per la comprensione di documenti e grafici.

Vary dimostra buone prestazioni in numerosi compiti, eccellendo nella OCR a livello di documento, comprensione dei grafici e compiti di MMVet. In particolare, raggiunge un ANLS del 78,2% in DocVQA e del 36,2% in MMVet, dimostrando la sua competenza nelle nuove funzionalità di analisi dei documenti. Vary-tiny e Vary-base mostrano risultati solidi nei compiti di OCR dei documenti, con Vary-base che supera gli altri LVLM. Sebbene lo studio riconosca il successo di Vary, enfatizza la necessità continua di miglioramenti nell’ampliamento efficace del vocabolario visivo.

In conclusione, i punti chiave dello studio possono essere riassunti come segue:

  • Proposta: Metodo efficiente per l’ampliamento del vocabolario visivo nei LVLM.
  • Metodologia: Il metodo proposto introduce un nuovo vocabolario visivo generato attraverso una rete integrata con il linguaggio originale.
  • Capacità: Questo metodo migliora la percezione dettagliata, specialmente nei compiti di OCR a livello di documento e comprensione dei grafici. Le capacità originali dei LVLM sono mantenute mentre si acquisiscono rapidamente nuove funzionalità.
  • Prestazioni: Sono stati dimostrati punteggi promettenti in vari compiti, con questo metodo che supera gli altri LVLM nelle funzionalità di analisi dei documenti.