Rapporto OpenAI sta accelerando gli sforzi per rilasciare un LLM multimodale chiamato GPT-Vision.
OpenAI sta lavorando per rilasciare un LLM multimodale chiamato GPT-Vision.
Secondo un rapporto di The Information, nel tentativo di battere il rivale Google nel rilascio di un avanzato LLM multimodale, OpenAI sta accelerando gli sforzi per rilasciare GPT-Vision, con il nome in codice Gobi. Ciò avviene una settimana dopo che la versione di Google di un LLM multimodale, Gemini, è stata rilasciata a un piccolo gruppo di aziende per essere testata.
Ma, cosa esattamente è un LLM multimodale? Bene, secondo i rapporti, questi grandi modelli di linguaggio avranno la capacità di elaborare testi e immagini. Ciò significa che questi LLM saranno in grado di comprendere e generare contenuti che combinano testo e immagini, offrendo capacità estese.
Come abbiamo visto con il rilascio di GPT-4, un simile rilascio non solo manterrebbe il vantaggio di OpenAI sul mercato, ma aiuterebbe anche a mantenere la propria quota di mercato nel settore generale dei LLM. Ma non è ancora pronto. Secondo lo stesso rapporto, GPT-Vision è bloccato nelle revisioni di sicurezza.
- Avanzamenti nell’Inpainting delle Immagini Colmare il Divario tra Manipolazioni 2D e 3D con questo Nuovo Inpainting AI per Neural Radiance Fields
- La Scuola di Ingegneria dà il benvenuto a Songyee Yoon PhD ’00 come studioso di innovazione in visita.
- Come importare e combinare automaticamente più file in R
Anche se questo potrebbe essere il caso, sembra che “gli ingegneri di OpenAI sembrino vicini a soddisfare le preoccupazioni legali”. Queste preoccupazioni si sono accumulate nel corso degli ultimi mesi, poiché OpenAI è stata minacciata da diverse cause legali a causa dei dati di addestramento provenienti dagli autori e dal The New York Times.
Come accennato in precedenza, se OpenAI riuscisse a rilasciare Gobi prima di Google, fornirebbe alla start-up di intelligenza artificiale un vantaggio chiave sui rivali che stanno investendo pesantemente nell’IA generativa nella speranza di raggiungere OpenAI. È un vantaggio critico che stanno cercando di non perdere.
La gara è in corso. OpenAI punta a lanciare Gobi prima che Google abbia la possibilità di rilasciare Gemini. Questo, ovviamente, a causa dell’enorme successo di ChatGPT. Essendo il primo sul mercato, OpenAI ha goduto della sua prima esposizione ai nuovi utenti ed è chiaro che vogliono replicare quella situazione con il loro LLM multimodale.
Detto ciò, ci sono alcune interessanti possibilità che Gobi potrebbe portare a GPT-4. Gobi potrebbe probabilmente ampliare GPT-4 aggiungendo funzionalità visive e multimodali migliorate che OpenAI ha anticipato in precedenza.
La corsa agli LLM multimodali si sta riscaldando e a seconda di quale azienda rilasci per prima, avrà probabilmente un impatto significativo sul futuro del mercato per anni a venire.