Rapporto OpenAI sta accelerando gli sforzi per rilasciare un LLM multimodale chiamato GPT-Vision.

OpenAI sta lavorando per rilasciare un LLM multimodale chiamato GPT-Vision.

Secondo un rapporto di The Information, nel tentativo di battere il rivale Google nel rilascio di un avanzato LLM multimodale, OpenAI sta accelerando gli sforzi per rilasciare GPT-Vision, con il nome in codice Gobi. Ciò avviene una settimana dopo che la versione di Google di un LLM multimodale, Gemini, è stata rilasciata a un piccolo gruppo di aziende per essere testata.

Ma, cosa esattamente è un LLM multimodale? Bene, secondo i rapporti, questi grandi modelli di linguaggio avranno la capacità di elaborare testi e immagini. Ciò significa che questi LLM saranno in grado di comprendere e generare contenuti che combinano testo e immagini, offrendo capacità estese.

Come abbiamo visto con il rilascio di GPT-4, un simile rilascio non solo manterrebbe il vantaggio di OpenAI sul mercato, ma aiuterebbe anche a mantenere la propria quota di mercato nel settore generale dei LLM. Ma non è ancora pronto. Secondo lo stesso rapporto, GPT-Vision è bloccato nelle revisioni di sicurezza.

Anche se questo potrebbe essere il caso, sembra che “gli ingegneri di OpenAI sembrino vicini a soddisfare le preoccupazioni legali”. Queste preoccupazioni si sono accumulate nel corso degli ultimi mesi, poiché OpenAI è stata minacciata da diverse cause legali a causa dei dati di addestramento provenienti dagli autori e dal The New York Times.

Come accennato in precedenza, se OpenAI riuscisse a rilasciare Gobi prima di Google, fornirebbe alla start-up di intelligenza artificiale un vantaggio chiave sui rivali che stanno investendo pesantemente nell’IA generativa nella speranza di raggiungere OpenAI. È un vantaggio critico che stanno cercando di non perdere.

La gara è in corso. OpenAI punta a lanciare Gobi prima che Google abbia la possibilità di rilasciare Gemini. Questo, ovviamente, a causa dell’enorme successo di ChatGPT. Essendo il primo sul mercato, OpenAI ha goduto della sua prima esposizione ai nuovi utenti ed è chiaro che vogliono replicare quella situazione con il loro LLM multimodale.

Detto ciò, ci sono alcune interessanti possibilità che Gobi potrebbe portare a GPT-4. Gobi potrebbe probabilmente ampliare GPT-4 aggiungendo funzionalità visive e multimodali migliorate che OpenAI ha anticipato in precedenza.

La corsa agli LLM multimodali si sta riscaldando e a seconda di quale azienda rilasci per prima, avrà probabilmente un impatto significativo sul futuro del mercato per anni a venire.