Google AI presenta PaLI-3 un modello Vision Language (VLM) più piccolo, più veloce e più potente che si confronta positivamente con modelli simili che sono 10 volte più grandi.

Google AI presenta PaLI-3 un modello Vision Language (VLM) compatto, rapido e potente che sfida con successo modelli simili dieci volte più grandi.

Il Vision Language Model (VLM) è un sistema avanzato di intelligenza artificiale che combina la comprensione del linguaggio naturale con le capacità di riconoscimento delle immagini. Come l’OpenAI’s CLIP e il BigGAN di Google, i VLM possono comprendere descrizioni testuali e interpretare immagini, consentendo varie applicazioni nei campi della computer vision, della generazione di contenuti e dell’interazione uomo-computer. Hanno dimostrato impressionanti capacità nella comprensione e generazione di testo in contesto con contenuti visivi, rendendoli una tecnologia fondamentale nel panorama dell’IA.

Ricercatori di Google Research, Google DeepMind e Google Cloud confrontano modelli Vision Transformer (ViT) pre-addestrati con obiettivi di classificazione rispetto a quelli contrastivi, con modelli pre-addestrati contrastivamente, in particolare SigLIP-based PaLI, che ottengono risultati migliori in compiti multimodali, in particolare localizzazione e comprensione del testo. I ricercatori hanno scalato l’encoder di immagini SigLIP a 2 miliardi di parametri, raggiungendo un nuovo state-of-the-art nel recupero multimodale multilingue. Il loro studio sostiene il pre-addestramento degli encoder visivi su dati di immagini e testo su larga scala anziché su dati di tipo classificazione. Il loro approccio rivela i benefici dell’aumento di dimensioni degli encoder di immagini pre-addestrati con classificazione, come dimostrato da PaLI-X in grandi Vision Language Models.

Il loro studio si addentra nello scaling del VLM sottolineando l’importanza di modelli su scala più piccola per la praticità e per la ricerca efficiente. Introduce PaLI-3, un VLM da 5 miliardi di parametri con risultati competitivi. Il processo di addestramento di PaLI-3 prevede un pre-addestramento contrastivo dell’encoder di immagini su dati su larga scala, un miglior mixing dei dataset e un addestramento ad alta risoluzione. Viene introdotto un modello di visione contrastivo multilingue con 2 miliardi di parametri. Studi di ablation confermano la superiorità dei modelli pre-addestrati in modo contrastivo, specialmente nei compiti legati alla localizzazione e comprensione del testo con contesto visuale.

Il loro approccio utilizza un modello ViT pre-addestrato come encoder di immagini, in particolare ViT-G14, usando la ricetta di addestramento SigLIP. ViT-G14 ha circa 2 miliardi di parametri e funge da colonna vertebrale visiva per PaLI-3. Il pre-addestramento contrastivo prevede l’incorporazione di immagini e testi separatamente e la classificazione della loro corrispondenza. I token visivi dall’output di ViT vengono proiettati e combinati con i token di testo. Questi input vengono quindi elaborati da un modello di linguaggio encoder-decoder con 3 miliardi di parametri UL2 per la generazione di testo, tipicamente guidato da prompt specifici del compito come le domande VQA.

PaLI-3 eccelle rispetto a controparti più grandi, in particolare nella localizzazione e nella comprensione del testo situato visivamente. Il modello PaLI basato su SigLIP, con pre-addestramento contrastivo dell’encoder di immagini, stabilisce un nuovo state-of-the-art nel recupero multimodale multilingue. Il modello completo di PaLI-3 supera lo state-of-the-art nella segmentazione delle espressioni di riferimento e mantiene bassi tassi di errore tra i sottogruppi nei compiti di rilevazione. Il pre-addestramento contrastivo si dimostra più efficace per i compiti di localizzazione. L’encoder di immagini ViT-G di PaLI-3 eccelle in molteplici compiti di classificazione e recupero cross-modale.

In conclusione, la loro ricerca sottolinea i benefici del pre-addestramento contrastivo, esemplificato dall’approccio SigLIP, per VLM più potenti ed efficienti. Il modello più piccolo di PaLI-3 basato su SigLIP, con 5 miliardi di parametri, eccelle nella localizzazione e nella comprensione del testo, superando le controparti più grandi su diversi benchmark multimodali. Il pre-addestramento contrastivo dell’encoder di immagini in PaLI-3 raggiunge anche un nuovo state-of-the-art nel recupero multimodale multilingue. Il loro studio sottolinea la necessità di approfondire le indagini su vari aspetti dell’addestramento del VLM oltre al pre-addestramento dell’encoder di immagini per migliorare ulteriormente le prestazioni del modello.

AI Shorts,Applications,artificial intelligence,Computer Vision,Editors Pick

Google AI presenta PaLI-3 un modello Vision Language (VLM) più piccolo, più veloce e più potente che si confronta positivamente con modelli simili che sono 10 volte più grandi.

Google AI presenta PaLI-3 un modello Vision Language (VLM) compatto, rapido e potente che sfida con successo modelli simili dieci volte più grandi.

Un nuovo studio di intelligenza artificiale dell’MIT mostra come le reti neurali profonde non vedano il mondo nel modo in cui lo vediamo noi

Incontra FastEmbed una leggera e veloce libreria Python per la generazione di embed di testo

Il potere degli encoder e decoder avanzati ...

Applicazioni di AIoT utilizzate oggi

Incontra MatFormer Un’architettura Un...

7 Modi per utilizzare ChatGPT 4Vision come ...

Grandi modelli di linguaggio TinyBERT ̵...

PyrOSM lavorare con i dati di Open Street Map

AI