I ricercatori di Alibaba presentano la serie Qwen-VL un insieme di modelli visione-linguaggio su larga scala progettati per percepire e comprendere sia il testo che le immagini.

Il team di Alibaba presenta la serie Qwen-VL, modelli di visione-linguaggio su larga scala per comprendere testo e immagini.

I modelli di linguaggio di grandi dimensioni (LLM) hanno di recente attirato molto interesse grazie alle loro potenti capacità di creazione e comprensione del testo. Questi modelli hanno significative capacità interattive e il potenziale per aumentare la produttività come assistenti intelligenti, allineando ulteriormente le istruzioni all’intento dell’utente. Al contrario, i modelli di grandi dimensioni basati solo sul linguaggio sono limitati al solo testo e non possono gestire altre modalità ampiamente utilizzate, come immagini, audio e video, il che limita notevolmente il campo di applicazione dei modelli. Per superare questa limitazione, sono stati creati una serie di grandi modelli di visione e linguaggio (LVLM) in grado di riconoscere e comprendere informazioni visive.

Questi modelli visione-linguaggio di ampio respiro mostrano un notevole potenziale per risolvere problemi pratici legati alla visione. I ricercatori del gruppo Alibaba introducono il nuovo membro della serie Qwen open source, i modelli della serie Qwen-VL, per promuovere la crescita della comunità open source multimodale. I modelli visione-linguaggio su larga scala della famiglia Qwen-VL sono disponibili in due versioni: Qwen-VL e Qwen-VL-Chat. Il modello pre-addestrato Qwen-VL collega un codificatore visivo al modello di linguaggio Qwen-7B per fornire capacità visive. Qwen-VL può percepire e comprendere informazioni visive su diverse scale dopo aver completato le tre fasi di addestramento. Inoltre, Qwen-VL-Chat è un modello interattivo di linguaggio visivo basato su Qwen-VL che utilizza metodi di allineamento e offre interazioni più flessibili, come l’inserimento di più immagini, la discussione a più round e la capacità di localizzazione. Questo è illustrato nella Fig. 1.

**Figura 1:** Alcuni esempi qualitativi prodotti da Qwen-VL-Chat sono mostrati nella Figura 1. Qwen-VL-Chat supporta l’inserimento di più immagini, conversazioni a turno, conversazioni multilingue e capacità di localizzazione.

Le caratteristiche del modello sono:

• Ottime prestazioni: supera notevolmente i modelli di grandi dimensioni attualmente disponibili su diversi benchmark di valutazione, tra cui Zero-shot Captioning, VQA, DocVQA e Grounding, allo stesso livello di modello.

• LVLM multilingue che promuove il riconoscimento end-to-end e l’ancoraggio di testo bilingue cinese e inglese e istanze nelle immagini: Qwen-VL permette naturalmente il dialogo in inglese, cinese e multilingue.

• Conversazioni intercalate a più immagini: questa funzionalità consente di confrontare diverse immagini, porre domande sulle immagini e partecipare a narrazioni a più immagini.

• Riconoscimento e comprensione accurati: la risoluzione di 448×448 consente un riconoscimento del testo dettagliato, un controllo della qualità del documento e l’identificazione del bounding box rispetto alla risoluzione di 224×224 attualmente utilizzata dai modelli LVLM open source concorrenti.

AI Shorts,Applications,artificial intelligence,Computer Vision,Editors Pick,Machine Learning,Staff,Tech News,Technology,Uncategorized

I ricercatori di Alibaba presentano la serie Qwen-VL un insieme di modelli visione-linguaggio su larga scala progettati per percepire e comprendere sia il testo che le immagini.

Il team di Alibaba presenta la serie Qwen-VL, modelli di visione-linguaggio su larga scala per comprendere testo e immagini.

Scaling Agglomerative Clustering for Big Data’ ‘Scalare l’agglomerazione clustering per Big Data

I migliori progetti di intelligenza artificiale generativa

ChatGPT Enterprise per le grandi aziende sa...

Il professor Mark A. Lemley su AI generativ...

Questo articolo sull’IA della GSAi Ci...

Come 25.000 computer hanno addestrato ChatGPT

Principi fondamentali dell’Ingegneria...

Rivoluzionare l’interazione uomo-macc...

AI