Metaforicamente, ChatGPT è Vivo

Metaforicamente, ChatGPT è un Essere Vivente

ChatGPT è finalmente diventato multimodale

Immagine: Creatore di immagini Bing

La crescita di ChatGPT è stata drammatica nel corso degli anni. Recentemente, OpenAI ha annunciato che ChatGPT ora può ascoltare, vedere e parlare.

La multimodalità di ChatGPT ha assunto una nuova forma.

Nel novembre 2023,

ChatGPT di OpenAI è apparso su Internet. Due mesi dopo, con oltre 100 milioni di utenti, ha ottenuto il titolo dell’applicazione software consumer a più rapida crescita nella storia. L’azienda non-profit ha visto l’opportunità di fare profitto e così ha fatto.

I profitti sono arrivati dal loro servizio freemium, ma la maggior parte di quei profitti e fondi sono stati utilizzati per pagare le bollette, grazie alle elevate richieste di risorse dei modelli LLM.

Il 14 marzo 2023,

Il lancio di GPT 4 ha consolidato il nome di OpenAI nell’utopia della superintelligenza, diventando un protagonista chiave nell’estensione dei confini della tecnologia AI e NLP.

Altre grandi aziende hanno mostrato interesse. Tutti hanno iniziato ad estendere ulteriormente questo confine. Allo stesso tempo, la maggior parte di queste aziende tecnologiche ha ottenuto profitti consistenti da questo campo rivoluzionario dell’AI.

ChatGPT, che si trovava nel supporto vitale di miliardi di dollari da aziende come Microsoft, può finalmente vedere, sentire e parlare.

Metaforicamente, è vivo.

I. Voce: Quando ChatGPT Parla

Immagine: Creatore di immagini Bing

Guarda questo video demo di OpenAI, in cui rivelano le nuove funzionalità multimodali all’interno dell’app ChatGPT:

Questo sembra essere un momento “Hello World” per ChatGPT, ed è vivo, grazie al suo nuovo upgrade multimodale.

Attraverso la voce, gli utenti possono inviare istruzioni a ChatGPT. ChatGPT risponderà quindi con una voce apparentemente naturale. La nuova funzione vocale ha promosso molto bene ChatGPT a assistente vocale. Un assistente vocale potente, per la precisione.

“Abbiamo collaborato con attori vocali professionisti per creare ciascuna delle voci. Utilizziamo anche Whisper … per trascrivere le tue parole pronunciate in testo”, ha dichiarato OpenAI nel loro post di annuncio.

Whisper è un sistema di riconoscimento vocale sviluppato da OpenAI, che è stato addestrato su 680.000 ore di dati.

Nel demo condiviso da OpenAI, l’utente chiede all’app ChatGPT di raccontare una storia della buonanotte su un riccio, a cui risponde con una storia. Suona simile a ChatGPT – letteralmente suona – e come riportato da ZDNet, è simile a come funzionano gli assistenti vocali come l’Alexa di Amazon.

In effetti, ci sono voci che affermano che Alexa sta pianificando di integrare l’IA generativa come GPT4 per rendere il suo assistente vocale più affidabile e intelligente.

II. Immagine: Quando l’IA Vede

Immagine: Creatore di immagini Bing

Nel demo di OpenAI, l’utente ha chiesto a ChatGPT di riparare la sua bicicletta inviando delle immagini della bicicletta all’app. ChatGPT ha ‘guardato’ quelle immagini e ha proposto una soluzione per riparare la bici [1].

Le cose si sono fatte interessanti quando ChatGPT è stato in grado di correlare il manuale di istruzioni e gli strumenti e di guidare l’utente su come riparare veramente la bicicletta. [2]

La funzione di input delle immagini può essere utile in tante diverse situazioni: identificare oggetti, risolvere un problema matematico, leggere un manuale di istruzioni, o (ovviamente) riparare una bicicletta. La capacità di vedere le immagini può migliorare notevolmente le attività visive che richiedono analisi.

Un’applicazione interessante di questa funzione viene sfruttata da una startup danese chiamata Be My Eyes.

Be My Eyes ha sviluppato tecnologie per oltre 250 milioni di persone non vedenti o con bassa visione dal 2012. Stanno utilizzando GPT-4 per aiutare queste persone con disabilità diverse e, a tal scopo, hanno sviluppato una versione basata su intelligenza artificiale di GPT-4 per la loro ex app Volontario Virtuale™.

Ciò consente all’app Be My Eyes, che già assiste gli alunni ciechi nelle loro sfide, di diventare migliore e più affidabile.

Ciao lettori! Spero che stiate apprezzando questo articolo. Questo articolo fa parte della mia newsletter Creative Block – una newsletter settimanale su AI, Tecnologia e Scienza. Se volete leggere altri articoli come questo, andate su Creative Block.

Continuiamo.

Secondo OpenAI, Be My Eyes può beneficiare molti utenti perché ora possono interagire con un’assistenza AI che, grazie alla capacità di immagine, permette loro di conoscere meglio i loro dintorni.

“La comprensione delle immagini è alimentata da GPT-3.5 e GPT-4 multimodali. Questi modelli applicano le loro capacità di ragionamento del linguaggio a una vasta gamma di immagini, come fotografie, screenshot e documenti contenenti sia testo che immagini”, dice OpenAI in un blog.

III. Sicurezza: Quando ChatGPT cerca (di diventare) sicuro

Immagine: Creatore di immagini Bing

OpenAI ha condotto test beta e “red teaming” per esplorare e mitigare i rischi.

Ciò consente a ChatGPT di essere quasi sicuro, se non del tutto.

Non molto tempo fa, OpenAI ha pubblicato un articolo in cui descriveva i suoi sforzi di test con GPT-4V. GPT-4V, derivante dalla parola GPT-4(V)ision, è un modello GPT-4 per analizzare gli input di immagini forniti dall’utente.

Il obiettivo principale, nelle parole stesse di OpenAI, era “ottenere feedback e una maggiore comprensione dei modi in cui le persone interagiscono con GPT-4V.”

L’articolo ci dà un’idea dei rischi legati alla natura multimodale di GPT-4.

La valutazione positiva di OpenAI dimostra che ChatGPT è stato in grado di evitare contenuti dannosi. Sembra rifiutare di generare immagini AI che includono persone reali. Inoltre, GPT4-V rifiuta anche di identificare persone in immagini.

Tuttavia, le valutazioni negative mostrano che GPT-4V è ancora in grado di generare disinformazione, superare CAPTCHA o geolocalizzare immagini.

Basandosi su ciò, OpenAI afferma quanto segue:

“…Task come la capacità di risolvere CAPTCHA indicano la capacità del modello di risolvere puzzle e compiere compiti complessi di ragionamento visivo. Un’elevata performance nelle valutazioni di geolocalizzazione dimostra la conoscenza del mondo posseduta dal modello e può essere utile per gli utenti che cercano un oggetto o un luogo”, afferma OpenAI nel suo rapporto GPT-4V(ision) System Card

Grazie all’IA, i CAPTCHA sono ormai un ricordo del passato.

OpenAI ha fatto una scoperta interessante. GPT-4V è abbastanza bravo a rifiutare “jailbreak” basati su immagini.

Il “jailbreaking” di immagini è un termine che si riferisce al processo di modifica di un modello AI generatore di immagini (come midjourney, dalle3, ecc.) per aggirare le sue limitazioni o restrizioni integrate.

È una forma di hacking (più che altro di inganno) di queste modelle d’immagine per generare immagini sensibili, sia sfruttando i loro difetti che manipolando i loro input.

Dal grafico sottostante di OpenAI, vediamo come GPT-4 sia riuscito a ottenere un tasso di rifiuto dell’evasione di più dell’85%

Fonte immagine: OpenAI

Il grafico confronta tre varianti di GPT4: GPT-4 Rilascio, GPT-4V e GPT-4V + Sistema di Rifiuto. [3]

OpenAI ha anche coinvolto “team rossi” per testare le capacità del modello in ambiti scientifici, come la comprensione delle immagini nelle pubblicazioni e la capacità di fornire consigli medici basati su immagini mediche come le scansioni TC.

Quindi è affidabile? Certo che no.

La conclusione di OpenAI su questo è chiara: “Non riteniamo che la versione attuale di GPT-4V sia adatta a svolgere qualsiasi funzione medica.”

Quindi, la capacità di immagine non è ancora del tutto affidabile. Tuttavia, è comunque un grande balzo in avanti.

In un articolo sul suo blog, OpenAI ha menzionato che queste nuove funzionalità verranno introdotte gradualmente, citando preoccupazioni per la sicurezza.

IV. Dove stiamo arrivando con i sogni di AGI?

Immagine: Creatore di immagini Bing

Le ultime aggiunte di OpenAI a ChatGPT sono decisamente sorprendenti. La multimodalità è il percorso che OpenAI deve seguire se vuole raggiungere l’AGI.

Riuscirà ad arrivare all’AGI o no, è oggetto di dibattito. Come sappiamo se l’AGI è qui? Onestamente, nemmeno agli esperti di intelligenza artificiale è chiaro.

Ma in termini v

Sento che la multimodalità dell’IA è la strada da seguire se la nostra destinazione è l’AGI. E anche se non riusciamo a raggiungerla nel prossimo futuro, potremmo avvicinarci all’AGI.

L’integrazione dell’input e dell’output vocale, il riconoscimento delle immagini e l’impegno per la sicurezza portano a un ChatGPT che si sta continuamente evolvendo, diventando un’assistente AI più versatile e affidabile. La capacità di fare inferenze analizzando l’ambiente circostante è molto simile a come imparano anche gli esseri umani.

Queste caratteristiche aprono un mondo di possibilità, dall’interazione senza mani alla soluzione di problemi visivi.

Inoltre, ChatGPT sarà presto in grado di cercare su internet all’interno della finestra di ChatGPT [4]. Queste caratteristiche, al momento, saranno presto disponibili a tutti gli utenti e sviluppatori. Secondo OpenAI, verranno gradualmente introdotte tutte le caratteristiche, con priorità agli utenti di ChatGPT Plus ed Enterprise.

La funzionalità del browser, anche se attualmente disponibile solo per gli utenti Plus ed Enterprise, sarà presto disponibile per tutti gli utenti, secondo una dichiarazione di OpenAI.

Se la multimodalità è il percorso che tutti stiamo seguendo, allora è sicuro supporre che l’AGI sia vicina.

In un mondo di rapida innovazione, rimanere informati è fondamentale. Unisciti alla mia newsletter Creative Block e taglia la confusione: una newsletter settimanale con approfondimenti credibili su IA, tecnologia e scienza. Niente hype, niente pessimismo — solo analisi ben documentate, saggi che stimolano la riflessione e notizie selezionate che contano davvero.

Non perderti l’opportunità di rimanere aggiornato sulle vere innovazioni. Iscriviti ora e sii informato! 🚀📚

Creative Block | Aditya Anil | Substack

La newsletter settimanale su IA, tecnologia e scienza che conta per te. Clicca per leggere Creative Block, di Aditya…

creativeblock.substack.com

Note a piè di pagina:

  1. Aspettando il giorno in cui le persone diranno “Vedi! L’IA può sostituire i meccanici”
  2. Vedi da te stesso qui
  3. GPT-4 Release è la versione originale di GPT-4. GPT-4V è una versione modificata di GPT-4 che è stata addestrata su un ampio dataset di valori ed etica. GPT-4V + Refusal System è GPT-4V con un ulteriore livello di protezione che può rilevare e respingere richieste dannose.
  4. Tuttavia, non è qualcosa di nuovo, poiché potevi utilizzare gpt4 anche in precedenza, sia utilizzando plugin che utilizzando Bing AI Chat.