Multimodal AI evolve mentre ChatGPT acquisisce la vista con GPT-4V(ision)

Multimodal AI in continua evoluzione mentre ChatGPT acquisisce la vista con GPT-4V(ision)

Nello sforzo continuo di rendere l’IA più simile agli esseri umani, i modelli GPT di OpenAI hanno costantemente spinto i limiti. GPT-4 è ora in grado di accettare prompt sia di testo che di immagini.

La multimodalità nell’IA generativa indica la capacità di un modello di produrre output vari come testo, immagini o audio in base all’input. Questi modelli, addestrati su dati specifici, apprendono schemi sottostanti per generare nuovi dati simili, arricchendo le applicazioni di intelligenza artificiale.

Progressi recenti nell’IA multimodale

Un recente balzo significativo in questo campo si è verificato con l’integrazione di DALL-E 3 in ChatGPT, un importante aggiornamento nella tecnologia di traduzione testo-immagine di OpenAI. Questa combinazione consente un’interazione più fluida in cui ChatGPT aiuta a creare prompt precisi per DALL-E 3, trasformando le idee degli utenti in arte vivida generata dall’IA. Pertanto, mentre gli utenti possono interagire direttamente con DALL-E 3, avere ChatGPT nel mix rende il processo di creazione di arte generata dall’IA molto più user-friendly.

Scopri di più su DALL-E 3 e la sua integrazione con ChatGPT qui. Questa collaborazione mostra non solo l’avanzamento dell’IA multimodale, ma rende anche la creazione di arte generata dall’IA un gioco da ragazzi per gli utenti.

openai.com dall-e-3

https://openai.com/dall-e-3

D’altra parte, Google ha introdotto Med-PaLM M a giugno di quest’anno nel settore della salute. Si tratta di un modello generativo multimodale in grado di codificare e interpretare dati biomedici diversi. Ciò è stato raggiunto mediante l’addestramento di PaLM-E, un modello di linguaggio, per affrontare i domini medici utilizzando un benchmark open-source chiamato MultiMedBench. Questo benchmark è costituito da oltre 1 milione di campioni appartenenti a 7 tipi di dati biomedici e 14 compiti, come risposta a domande mediche e generazione di referti radiologici.

Diverse industrie stanno adottando strumenti innovativi di intelligenza artificiale multimodale per alimentare l’espansione aziendale, ottimizzare le operazioni e migliorare il coinvolgimento dei clienti. I progressi nelle capacità dell’IA audio, video e testuale stanno spingendo la crescita dell’IA multimodale.

Le aziende cercano applicazioni di IA multimodale in grado di rivoluzionare i modelli e i processi aziendali, aprendo nuove opportunità di crescita nell’ecosistema dell’IA generativa, dai tool di dati alle emergenti applicazioni di intelligenza artificiale.

Dopo il lancio di GPT-4 a marzo, alcuni utenti hanno notato una diminuzione della qualità delle risposte nel tempo, preoccupazione condivisa da sviluppatori di spicco e nei forum di OpenAI. Inizialmente respinta da OpenAI, uno studio successivo ha confermato il problema. È emersa una diminuzione nell’accuratezza di GPT-4 dal 97,6% al 2,4% tra marzo e giugno, indicando una riduzione nella qualità delle risposte con gli aggiornamenti successivi del modello.

chatgpt-ai

Trend di ricerca di Google per ChatGPT (blu) e intelligenza artificiale (rosso)

L’entusiasmo attorno a ChatGPT di OpenAI è tornato. Ora è dotato di una funzionalità di visione chiamata GPT-4V, che consente agli utenti di far analizzare le immagini a GPT-4. Questa è la nuova funzione che è stata aperta agli utenti.

L’aggiunta dell’analisi delle immagini ai modelli di linguaggio di grandi dimensioni (LLM) come GPT-4 viene considerata da alcuni come un grande passo avanti nella ricerca e nello sviluppo dell’IA. Questo tipo di LLM multimodale apre nuove possibilità, portando i modelli di linguaggio oltre il testo per offrire nuove interfacce e risolvere nuovi tipi di compiti, creando nuove esperienze per gli utenti.

La formazione di GPT-4V è stata completata nel 2022, con l’accesso anticipato rilasciato a marzo 2023. La funzionalità visiva in GPT-4V è alimentata dalla tecnologia di GPT-4. Il processo di formazione è rimasto lo stesso. Inizialmente, il modello è stato addestrato a prevedere la parola successiva in un testo utilizzando un enorme dataset di testo e immagini provenienti da varie fonti, tra cui internet.

In seguito, è stato migliorato con ulteriori dati, utilizzando un metodo chiamato apprendimento per rinforzo dalla retroazione umana (RLHF), per generare output che gli esseri umani preferiscono.

Meccanica della visione di GPT-4

Le notevoli capacità linguistiche di visione di GPT-4, sebbene impressionanti, hanno metodi sottostanti che rimangono sulla superficie.

Per esplorare questa ipotesi è stato introdotto un nuovo modello di visione-linguaggio, MiniGPT-4, utilizzando un avanzato LLM chiamato Vicuna. Questo modello utilizza un codificatore di visione con componenti pre-addestrate per la percezione visiva, allineando le caratteristiche visive codificate con il modello di linguaggio Vicuna attraverso uno strato di proiezione singolo. L’architettura di MiniGPT-4 è semplice ma efficace, con un focus sull’allineamento delle caratteristiche visive e linguistiche per migliorare le capacità di conversazione visiva.

MiniGPT-4

L’architettura di MiniGPT-4 include un codificatore di visione con ViT e Q-Former pre-addestrati, uno strato di proiezione lineare singolo e un avanzato modello di linguaggio Vicuna.

La tendenza dei modelli di linguaggio autoregressivi nei compiti di visione-linguaggio è anche cresciuta, capitalizzando il trasferimento cross-modale per condividere conoscenze tra il linguaggio e i domini multimodali.

MiniGPT-4 collega i domini visivi e linguistici allineando le informazioni visive da un codificatore di visione pre-addestrato con un LLM avanzato. Il modello utilizza Vicuna come decodificatore di linguaggio e segue un approccio di addestramento a due fasi. Inizialmente viene addestrato su un grande dataset di coppie immagine-testo per acquisire conoscenze di visione-linguaggio, seguito da un affinamento su un dataset più piccolo di alta qualità per migliorare l’affidabilità e l’usabilità della generazione.

Per migliorare la naturalezza e l’usabilità del linguaggio generato in MiniGPT-4, i ricercatori hanno sviluppato un processo di allineamento a due fasi, affrontando la mancanza di dataset di allineamento adeguati tra visione e linguaggio. Hanno selezionato un dataset specializzato per questo scopo.

Inizialmente, il modello generava descrizioni dettagliate delle immagini di input, migliorando i dettagli usando un prompt conversazionale allineato al formato del modello di linguaggio Vicuna. Questa fase mirava a generare descrizioni più complete delle immagini.

Prompt Iniziale Descrizione Immagine:

###Umano: <Img><ImageFeature></Img>Descrivi questa immagine in dettaglio. Fornisci il maggior numero possibile di dettagli. Dì tutto quello che vedi. ###Assistente:

Per il post-processing dei dati, eventuali incongruenze o errori nelle descrizioni generate sono stati corretti utilizzando ChatGPT, seguito da una verifica manuale per garantire l’alta qualità.

Prompt di Affinamento in Seconda Fase:

###Umano: <Img><ImageFeature></Img><Istruzione>###Assistente:

Questa esplorazione apre una finestra sulla comprensione delle meccaniche dell’intelligenza artificiale generativa multimodale come GPT-4, facendo luce su come le modalità di visione e linguaggio possano essere integrate in modo efficace per generare output coerenti e ricchi di contesto.

Esplorare la visione di GPT-4

Determinare le origini delle immagini con ChatGPT

GPT-4 Vision migliora la capacità di ChatGPT di analizzare le immagini e individuare le loro origini geografiche. Questa funzione passa dalle interazioni dell’utente solo a testo a una combinazione di testo e immagini, diventando uno strumento utile per coloro che sono curiosi di conoscere luoghi diversi attraverso i dati delle immagini.

Chatgpt-vision-GPT-4

Chiedere a ChatGPT dove viene scattata un’immagine di un punto di riferimento

Concetti Matematici Complessi

GPT-4 Vision eccelle nell’approfondire idee matematiche complesse analizzando espressioni grafiche o scritte a mano. Questa funzionalità agisce come uno strumento utile per coloro che cercano di risolvere problemi matematici intricati, rendendo GPT-4 Vision un aiuto notevole nei campi educativi e accademici.

Chatgpt-vision-GPT-4

Chiedere a ChatGPT di comprendere un concetto matematico complesso

Convertire l’Input Scritto a Mano in Codici LaTeX

Una delle notevoli abilità di GPT-4V è la sua capacità di tradurre input scritti a mano in codici LaTeX. Questa caratteristica è un vantaggio per ricercatori, accademici e studenti che spesso hanno bisogno di convertire espressioni matematiche scritte a mano o altre informazioni tecniche in un formato digitale. La trasformazione da scrittura a mano a LaTeX amplia l’orizzonte della digitalizzazione dei documenti e semplifica il processo di scrittura tecnica.

La capacità di GPT-4V di convertire input scritti a mano in codici LaTeX

La capacità di GPT-4V di convertire input scritti a mano in codici LaTeX

Estrazione dei dettagli della tabella

GPT-4V mostra abilità nell’estrazione dei dettagli dalle tabelle e nella gestione delle relative interrogazioni, un asset fondamentale nell’analisi dei dati. Gli utenti possono utilizzare GPT-4V per cercare tra le tabelle, raccogliere informazioni chiave e risolvere domande basate sui dati, rendendolo uno strumento potente per gli analisti dei dati e altri professionisti.

GPT-4V che decifra i dettagli della tabella e risponde alle relative domande

GPT-4V che decifra i dettagli della tabella e risponde alle relative domande

Comprensione del puntamento visuale

La capacità unica di GPT-4V di comprendere il puntamento visuale aggiunge una nuova dimensione all’interazione dell’utente. Comprendendo le indicazioni visive, GPT-4V può rispondere alle domande con una comprensione contestuale più elevata.

GPT-4V dimostra la capacità distintiva di comprendere il puntamento visuale

GPT-4V dimostra la capacità distintiva di comprendere il puntamento visuale

Creazione di semplici mock-up di siti web utilizzando un disegno

Motivato da questo tweet, ho cercato di creare un mock-up per il sito web unite.ai.

https://www.unite.ai/wp-content/uploads/2023/10/uthomepage.mp4

Sebbene il risultato non corrisponda esattamente alla mia visione iniziale, ecco il risultato che ho ottenuto.

Output HTML Frontend basato sulla visione di ChatGPT

Output HTML Frontend basato sulla visione di ChatGPT

Limitazioni ed errori di GPT-4V(ision)

Per analizzare GPT-4V, il team di Open AI ha effettuato valutazioni qualitative e quantitative. Le valutazioni qualitative includono test interni e revisioni esterne da parte di esperti, mentre quelle quantitative misurano i rifiuti del modello e l’accuratezza in vari scenari come l’identificazione di contenuti dannosi, il riconoscimento demografico, le preoccupazioni sulla privacy, la geolocalizzazione, la cybersecurity e le violazioni multimodali.

Tuttavia, il modello non è perfetto.

Il documento evidenzia le limitazioni di GPT-4V, come inferenze errate e testo o caratteri mancanti nelle immagini. Potrebbe creare o inventare fatti. In particolare, non è adatto per l’identificazione di sostanze pericolose nelle immagini, spesso commettendo errori di identificazione.

Nell’imaging medico, GPT-4V può fornire risposte inconsistenti e manca di consapevolezza delle pratiche standard, portando a potenziali errori di diagnosi.

Prestazioni non affidabili per scopi medici.

Prestazioni non affidabili per scopi medici (Fonte)

Inoltre, non riesce a cogliere le sfumature di certi simboli di odio e potrebbe generare contenuti inappropriati basati sugli input visivi. OpenAI sconsiglia di utilizzare GPT-4V per interpretazioni critiche, specialmente in contesti medici o delicati.

Conclusioni

Creato utilizzando Fast Stable Diffusion XL

Creato utilizzando Fast Stable Diffusion XL https://huggingface.co/spaces/google/sdxl

L’arrivo di GPT-4 Vision (GPT-4V) porta con sé una serie di possibilità interessanti e nuove sfide da affrontare. Prima di lanciarlo, è stato fatto molto sforzo per assicurarsi che i rischi, specialmente per quanto riguarda le immagini delle persone, siano ben studiati e ridotti. È impressionante vedere come GPT-4V sia migliorato, dimostrando molto potenziale in ambiti complicati come la medicina e la scienza.

Ora ci sono alcune grandi domande sul tavolo. Ad esempio, questi modelli dovrebbero essere in grado di identificare personaggi famosi dalle foto? Dovrebbero indovinare il genere, la razza o i sentimenti di una persona da una foto? E dovrebbero esserci regolazioni speciali per aiutare le persone con problemi di vista? Queste domande aprono un vaso di Pandora sulla privacy, l’equità e su come l’IA dovrebbe inserirsi nella nostra vita, cosa di cui tutti dovrebbero poter parlare.