Ricercatori dell’Università di Pennsylvania hanno sviluppato un quadro di apprendimento automatico per valutare l’efficacia delle funzionalità di intelligenza artificiale basate sulla visione mediante una serie di test su ChatGPT-Vision di OpenAI.
Gli esperti dell'Università di Pennsylvania creano un modello di intelligenza artificiale per testare la potenza visiva di ChatGPT-Vision di OpenAI.
Il modello GPT-Vision ha attirato l’attenzione di tutti. Le persone sono entusiaste della sua capacità di comprendere e generare contenuti relativi a testo e immagini. Tuttavia, c’è una sfida: non sappiamo esattamente in cosa sia bravo GPT-Vision e dove fallisce. Questa mancanza di comprensione può essere rischiosa, soprattutto se il modello viene utilizzato in settori critici dove gli errori potrebbero avere conseguenze serie.
Tradizionalmente, i ricercatori valutano i modelli di intelligenza artificiale come GPT-Vision raccogliendo un’ampia quantità di dati e utilizzando metriche automatizzate per la misurazione. Tuttavia, è stato introdotto un approccio alternativo – un’analisi basata su esempi – dai ricercatori. Invece di analizzare enormi quantità di dati, l’attenzione si concentra su un piccolo numero di esempi specifici. Questo approccio è considerato scientificamente rigoroso ed è risultato efficace in altri campi.
Per affrontare la sfida di comprendere le capacità di GPT-Vision, un gruppo di ricercatori dell’Università della Pennsylvania ha proposto un metodo di intelligenza artificiale formalizzato ispirato alle scienze sociali e all’interazione uomo-computer. Questo metodo basato sull’apprendimento automatico fornisce un quadro strutturato per valutare le prestazioni del modello, mettendo in evidenza una comprensione approfondita della sua funzionalità nel mondo reale.
- Geospatial generative AI con Amazon Bedrock e Amazon Location Service
- Come la ricerca di Amazon M5 ha permesso di risparmiare il 30% dei costi per la formazione LLM utilizzando AWS Trainium.
- Crea soluzioni di IDP ben architettate con un obiettivo personalizzato – Parte 5 Ottimizzazione dei costi
Il metodo di valutazione suggerito prevede cinque fasi: raccolta dati, revisione dati, esplorazione tematica, sviluppo tematico e applicazione tematica. Tratto dalla grounded theory e dall’analisi tematica, tecniche consolidate nelle scienze sociali, questo metodo è progettato per offrire approfondite intuizioni anche con un campione relativamente piccolo.
Per illustrare l’efficacia di questo processo di valutazione, i ricercatori lo hanno applicato a un compito specifico: generare testo alternativo per le figure scientifiche. Il testo alternativo è cruciale per comunicare il contenuto delle immagini alle persone con disabilità visive. L’analisi rivela che sebbene GPT-Vision mostri capacità impressionanti, tende a dipendere eccessivamente dalle informazioni testuali, è sensibile alla formulazione delle istruzioni e fatica a comprendere le relazioni spaziali.
In conclusione, i ricercatori sottolineano che questa analisi qualitativa basata su esempi non solo individua limiti in GPT-Vision, ma mostra anche un approccio ponderato per comprendere e valutare nuovi modelli di intelligenza artificiale. L’obiettivo è prevenire un potenziale uso improprio di questi modelli, soprattutto in situazioni in cui gli errori potrebbero avere conseguenze gravi.
L’articolo University of Pennsylvania Researchers have Developed a Machine Learning Framework for Gauging the Efficacy of Vision-Based AI Features by Conducting a Battery of Tests on OpenAI’s ChatGPT-Vision è apparso per la prima volta su MarkTechPost.