Ricercatori provenienti dalla Cina presentano CogVLM un potente modello di base del linguaggio visivo open-source

Ricercatori cinesi presentano CogVLM un potente modello open-source per il linguaggio visivo

I modelli di linguaggio visivo sono potenti e flessibili. Successivamente, la predizione dei token può essere utilizzata per creare una varietà di compiti di visione e cross-modalità, come la didascalia delle immagini, la risposta a domande visive, la delimitazione visiva e persino la segmentazione. Man mano che i VLM vengono scalati, compaiono anche competenze utili come l’apprendimento in contesto insieme al potenziamento delle attività a valle. È più difficile addestrare un VLM dall’inizio con le stesse prestazioni NLP dei modelli di linguaggio pura ben addestrati come LLaMA2, poiché introdurre un grande modello di linguaggio è già un compito difficile. Di conseguenza, ha senso osservare il processo di addestramento di un VLM utilizzando un modello di linguaggio preaddestrato già disponibile.

Le tecniche di allineamento superficiale ampiamente utilizzate, rappresentate da BLIP-2, trasferiscono le caratteristiche dell’immagine nello spazio d’incorporamento di input del modello di linguaggio utilizzando un Q-Former addestrabile o uno strato lineare, che collega un codificatore di visione preaddestrato e congelato al modello di linguaggio. Sebbene questo approccio converga rapidamente, non funziona altrettanto bene dell’addestramento simultaneo dei moduli di linguaggio e visione, come ad esempio PaLI-X. Riguardo ai VLM di stile chat insegnati utilizzando tecniche di allineamento superficiale, come MiniGPT-4, LLAVA e VisualGLM, si osservano scarse abilità di comprensione visiva sotto forma di allucinazioni. È possibile potenziare le abilità di comprensione visiva del grande modello di linguaggio senza compromettere le sue capacità di elaborazione del linguaggio naturale (NLP)?

CogVLM risponde con un “sì”. I ricercatori di Zhipu AI e dell’Università di Tsinghua hanno introdotto CogVLM. Questo potente modello di base di linguaggio visivo open-source crede che la mancanza di integrazione profonda tra il linguaggio e le informazioni visive sia la ragione principale delle prestazioni inferiori degli approcci di allineamento superficiale. Questa idea è nata confrontando i due approcci per la messa a punto efficace: p-tuning apprende un’incorporazione di prefisso del compito in input. LoRA usa una matrice a rango ridotto per regolare i pesi del modello in ogni livello. LoRA funziona quindi in modo più efficace e stabile. Poiché le caratteristiche dell’immagine nelle tecniche di allineamento superficiale si comportano in modo simile all’incorporazione di prefisso in p-tuning, una situazione simile potrebbe anche verificarsi in VLM.

In seguito sono riportate le cause più specifiche delle prestazioni ridotte di p-tuning e allineamento superficiale:

1. I token di testo addestrano i pesi congelati del modello di linguaggio. L’area del testo di input corrisponde perfettamente alle caratteristiche visive. Pertanto, potrebbe essere che le caratteristiche visive non si allineino più con la distribuzione di input dei pesi nei livelli profondi delle modifiche multistrato.

2. Lo stile di scrittura e la lunghezza della didascalia del lavoro di didascalia delle immagini, ad esempio, possono essere codificati solo nelle caratteristiche visive negli approcci di allineamento superficiale durante il preaddestramento. La coerenza tra gli elementi visivi e il contenuto potrebbe essere più forte. Adattare il modello di linguaggio all’addestramento combinato di immagini e testo, come nel caso di Qwen-VL e PaLI, è un possibile rimedio.

Tuttavia, questo compromette inutilmente l’NLP, il che potrebbe influire sulle attività incentrate sul testo come creare poesie basate sull’immagine o fornire contesto per le immagini. Far sì che il modello di linguaggio sia addestrabile durante il preaddestramento di VLM, secondo PaLM-E, comporterà un oblio catastrofico e una perdita del 87,3% delle prestazioni NLG per il modello di linguaggio da 8B. Al contrario, CogVLM potenzia il modello di linguaggio con un esperto visivo addestrabile. Ogni livello utilizza una matrice QKV separata per le caratteristiche dell’immagine nella sequenza e uno strato MLP per le caratteristiche di testo. L’esperto visivo mantiene gli stessi FLOPs ma aumenta il numero di parametri. Se non è presente un’immagine nella sequenza di input, i comportamenti sono gli stessi del modello di linguaggio originale poiché tutti i parametri sono fissi.

Con il CogVLM-17B addestrato su Vicuna-7B, su 14 standard benchmark cross-modali, come: 1) dataset di didascalia dell’immagine (NoCaps, Flicker30k, COCO), 2) dataset di VQA (VQAv2, OKVQA, GQA, TextVQA, VizWiz), e 3) dataset di delimitazione visiva (SecondBest), si raggiunge la prestazione di prima classe o la seconda migliore. 3) dataset a scelta multipla (TDIUC, ScienceQA); 4) dataset di delimitazione visiva (RefCOCO, RefCOCO+, RefCOCOg, Visual7W). Non incluso in questo studio è il CogVLM-28B-zh che è stato addestrato su ChatGLM-12B per supportare contemporaneamente il cinese e l’inglese per l’uso commerciale. Dal momento che la maggior parte dei VLM più noti del passato, come Flamingo, SimVLM, Coca, BEIT-3, GIT2, PaLI e PaLI-X, è proprietaria, ci si aspetta che l’open-sourcing di CogVLM avrà un impatto positivo significativo sulla ricerca sulla comprensione visiva e sull’applicazione industriale.