Google AI presenta PaLI-3 un modello Vision Language (VLM) più piccolo, più veloce e più potente che si confronta positivamente con modelli simili che sono 10 volte più grandi.

Google AI presenta PaLI-3 un modello Vision Language (VLM) compatto, rapido e potente che sfida con successo modelli simili dieci volte più grandi.

Il Vision Language Model (VLM) è un sistema avanzato di intelligenza artificiale che combina la comprensione del linguaggio naturale con le capacità di riconoscimento delle immagini. Come l’OpenAI’s CLIP e il BigGAN di Google, i VLM possono comprendere descrizioni testuali e interpretare immagini, consentendo varie applicazioni nei campi della computer vision, della generazione di contenuti e dell’interazione uomo-computer. Hanno dimostrato impressionanti capacità nella comprensione e generazione di testo in contesto con contenuti visivi, rendendoli una tecnologia fondamentale nel panorama dell’IA.

Ricercatori di Google Research, Google DeepMind e Google Cloud confrontano modelli Vision Transformer (ViT) pre-addestrati con obiettivi di classificazione rispetto a quelli contrastivi, con modelli pre-addestrati contrastivamente, in particolare SigLIP-based PaLI, che ottengono risultati migliori in compiti multimodali, in particolare localizzazione e comprensione del testo. I ricercatori hanno scalato l’encoder di immagini SigLIP a 2 miliardi di parametri, raggiungendo un nuovo state-of-the-art nel recupero multimodale multilingue. Il loro studio sostiene il pre-addestramento degli encoder visivi su dati di immagini e testo su larga scala anziché su dati di tipo classificazione. Il loro approccio rivela i benefici dell’aumento di dimensioni degli encoder di immagini pre-addestrati con classificazione, come dimostrato da PaLI-X in grandi Vision Language Models.

Il loro studio si addentra nello scaling del VLM sottolineando l’importanza di modelli su scala più piccola per la praticità e per la ricerca efficiente. Introduce PaLI-3, un VLM da 5 miliardi di parametri con risultati competitivi. Il processo di addestramento di PaLI-3 prevede un pre-addestramento contrastivo dell’encoder di immagini su dati su larga scala, un miglior mixing dei dataset e un addestramento ad alta risoluzione. Viene introdotto un modello di visione contrastivo multilingue con 2 miliardi di parametri. Studi di ablation confermano la superiorità dei modelli pre-addestrati in modo contrastivo, specialmente nei compiti legati alla localizzazione e comprensione del testo con contesto visuale.

Il loro approccio utilizza un modello ViT pre-addestrato come encoder di immagini, in particolare ViT-G14, usando la ricetta di addestramento SigLIP. ViT-G14 ha circa 2 miliardi di parametri e funge da colonna vertebrale visiva per PaLI-3. Il pre-addestramento contrastivo prevede l’incorporazione di immagini e testi separatamente e la classificazione della loro corrispondenza. I token visivi dall’output di ViT vengono proiettati e combinati con i token di testo. Questi input vengono quindi elaborati da un modello di linguaggio encoder-decoder con 3 miliardi di parametri UL2 per la generazione di testo, tipicamente guidato da prompt specifici del compito come le domande VQA.

PaLI-3 eccelle rispetto a controparti più grandi, in particolare nella localizzazione e nella comprensione del testo situato visivamente. Il modello PaLI basato su SigLIP, con pre-addestramento contrastivo dell’encoder di immagini, stabilisce un nuovo state-of-the-art nel recupero multimodale multilingue. Il modello completo di PaLI-3 supera lo state-of-the-art nella segmentazione delle espressioni di riferimento e mantiene bassi tassi di errore tra i sottogruppi nei compiti di rilevazione. Il pre-addestramento contrastivo si dimostra più efficace per i compiti di localizzazione. L’encoder di immagini ViT-G di PaLI-3 eccelle in molteplici compiti di classificazione e recupero cross-modale.

In conclusione, la loro ricerca sottolinea i benefici del pre-addestramento contrastivo, esemplificato dall’approccio SigLIP, per VLM più potenti ed efficienti. Il modello più piccolo di PaLI-3 basato su SigLIP, con 5 miliardi di parametri, eccelle nella localizzazione e nella comprensione del testo, superando le controparti più grandi su diversi benchmark multimodali. Il pre-addestramento contrastivo dell’encoder di immagini in PaLI-3 raggiunge anche un nuovo state-of-the-art nel recupero multimodale multilingue. Il loro studio sottolinea la necessità di approfondire le indagini su vari aspetti dell’addestramento del VLM oltre al pre-addestramento dell’encoder di immagini per migliorare ulteriormente le prestazioni del modello.