I ricercatori di Alibaba presentano la serie Qwen-VL un insieme di modelli visione-linguaggio su larga scala progettati per percepire e comprendere sia il testo che le immagini.

Il team di Alibaba presenta la serie Qwen-VL, modelli di visione-linguaggio su larga scala per comprendere testo e immagini.

I modelli di linguaggio di grandi dimensioni (LLM) hanno di recente attirato molto interesse grazie alle loro potenti capacità di creazione e comprensione del testo. Questi modelli hanno significative capacità interattive e il potenziale per aumentare la produttività come assistenti intelligenti, allineando ulteriormente le istruzioni all’intento dell’utente. Al contrario, i modelli di grandi dimensioni basati solo sul linguaggio sono limitati al solo testo e non possono gestire altre modalità ampiamente utilizzate, come immagini, audio e video, il che limita notevolmente il campo di applicazione dei modelli. Per superare questa limitazione, sono stati creati una serie di grandi modelli di visione e linguaggio (LVLM) in grado di riconoscere e comprendere informazioni visive.

Questi modelli visione-linguaggio di ampio respiro mostrano un notevole potenziale per risolvere problemi pratici legati alla visione. I ricercatori del gruppo Alibaba introducono il nuovo membro della serie Qwen open source, i modelli della serie Qwen-VL, per promuovere la crescita della comunità open source multimodale. I modelli visione-linguaggio su larga scala della famiglia Qwen-VL sono disponibili in due versioni: Qwen-VL e Qwen-VL-Chat. Il modello pre-addestrato Qwen-VL collega un codificatore visivo al modello di linguaggio Qwen-7B per fornire capacità visive. Qwen-VL può percepire e comprendere informazioni visive su diverse scale dopo aver completato le tre fasi di addestramento. Inoltre, Qwen-VL-Chat è un modello interattivo di linguaggio visivo basato su Qwen-VL che utilizza metodi di allineamento e offre interazioni più flessibili, come l’inserimento di più immagini, la discussione a più round e la capacità di localizzazione. Questo è illustrato nella Fig. 1.

Figura 1: Alcuni esempi qualitativi prodotti da Qwen-VL-Chat sono mostrati nella Figura 1. Qwen-VL-Chat supporta l’inserimento di più immagini, conversazioni a turno, conversazioni multilingue e capacità di localizzazione.

Le caratteristiche del modello sono:

• Ottime prestazioni: supera notevolmente i modelli di grandi dimensioni attualmente disponibili su diversi benchmark di valutazione, tra cui Zero-shot Captioning, VQA, DocVQA e Grounding, allo stesso livello di modello.

• LVLM multilingue che promuove il riconoscimento end-to-end e l’ancoraggio di testo bilingue cinese e inglese e istanze nelle immagini: Qwen-VL permette naturalmente il dialogo in inglese, cinese e multilingue.

• Conversazioni intercalate a più immagini: questa funzionalità consente di confrontare diverse immagini, porre domande sulle immagini e partecipare a narrazioni a più immagini.

• Riconoscimento e comprensione accurati: la risoluzione di 448×448 consente un riconoscimento del testo dettagliato, un controllo della qualità del documento e l’identificazione del bounding box rispetto alla risoluzione di 224×224 attualmente utilizzata dai modelli LVLM open source concorrenti.