Ricercatori dell’Università di Pennsylvania hanno sviluppato un quadro di apprendimento automatico per valutare l’efficacia delle funzionalità di intelligenza artificiale basate sulla visione mediante una serie di test su ChatGPT-Vision di OpenAI.

Gli esperti dell'Università di Pennsylvania creano un modello di intelligenza artificiale per testare la potenza visiva di ChatGPT-Vision di OpenAI.

Il modello GPT-Vision ha attirato l’attenzione di tutti. Le persone sono entusiaste della sua capacità di comprendere e generare contenuti relativi a testo e immagini. Tuttavia, c’è una sfida: non sappiamo esattamente in cosa sia bravo GPT-Vision e dove fallisce. Questa mancanza di comprensione può essere rischiosa, soprattutto se il modello viene utilizzato in settori critici dove gli errori potrebbero avere conseguenze serie.

Tradizionalmente, i ricercatori valutano i modelli di intelligenza artificiale come GPT-Vision raccogliendo un’ampia quantità di dati e utilizzando metriche automatizzate per la misurazione. Tuttavia, è stato introdotto un approccio alternativo – un’analisi basata su esempi – dai ricercatori. Invece di analizzare enormi quantità di dati, l’attenzione si concentra su un piccolo numero di esempi specifici. Questo approccio è considerato scientificamente rigoroso ed è risultato efficace in altri campi.

Per affrontare la sfida di comprendere le capacità di GPT-Vision, un gruppo di ricercatori dell’Università della Pennsylvania ha proposto un metodo di intelligenza artificiale formalizzato ispirato alle scienze sociali e all’interazione uomo-computer. Questo metodo basato sull’apprendimento automatico fornisce un quadro strutturato per valutare le prestazioni del modello, mettendo in evidenza una comprensione approfondita della sua funzionalità nel mondo reale.

Il metodo di valutazione suggerito prevede cinque fasi: raccolta dati, revisione dati, esplorazione tematica, sviluppo tematico e applicazione tematica. Tratto dalla grounded theory e dall’analisi tematica, tecniche consolidate nelle scienze sociali, questo metodo è progettato per offrire approfondite intuizioni anche con un campione relativamente piccolo.

Per illustrare l’efficacia di questo processo di valutazione, i ricercatori lo hanno applicato a un compito specifico: generare testo alternativo per le figure scientifiche. Il testo alternativo è cruciale per comunicare il contenuto delle immagini alle persone con disabilità visive. L’analisi rivela che sebbene GPT-Vision mostri capacità impressionanti, tende a dipendere eccessivamente dalle informazioni testuali, è sensibile alla formulazione delle istruzioni e fatica a comprendere le relazioni spaziali.

In conclusione, i ricercatori sottolineano che questa analisi qualitativa basata su esempi non solo individua limiti in GPT-Vision, ma mostra anche un approccio ponderato per comprendere e valutare nuovi modelli di intelligenza artificiale. L’obiettivo è prevenire un potenziale uso improprio di questi modelli, soprattutto in situazioni in cui gli errori potrebbero avere conseguenze gravi.

L’articolo University of Pennsylvania Researchers have Developed a Machine Learning Framework for Gauging the Efficacy of Vision-Based AI Features by Conducting a Battery of Tests on OpenAI’s ChatGPT-Vision è apparso per la prima volta su MarkTechPost.