Vedere con il suono fornire potere alle persone ipovedenti con GPT-4V(ision) e la tecnologia di Text-to-Speech

Offrire potere alle persone ipovedenti con GPT-4V(ision) e Text-to-Speech Vedere con il suono

Migliorare la Navigazione per i Difetti Visivi: Integrare GPT-4V(ision) e TTS per un’Assistenza Sensoriale Avanzata

Questo articolo è stato scritto a quattro mani con Rafael Guedes.

Introduzione

Le ultime novità di OpenAI hanno portato l’usabilità dell’Intelligenza Artificiale a un livello completamente nuovo con il rilascio delle API di GPT-4V(ision) e Text-to-Speech (TTS). Perché? Motiviamo la loro utilità con un caso d’uso. Camminare per strada è un’attività semplice per la maggior parte di noi, ma per coloro che hanno dei difetti visivi, ogni passo può rappresentare una sfida. Gli ausili tradizionali come i cani guida e i bastoni sono stati utili, ma l’integrazione delle tecnologie dell’IA apre un nuovo capitolo nell’incremento dell’indipendenza e della mobilità della comunità dei non vedenti. Semplici occhiali dotati di una telecamera discreta sarebbero sufficienti per rivoluzionare il modo in cui i non vedenti percepiscono ciò che li circonda. Spiegheremo come ciò possa essere fatto utilizzando le ultime versioni rilasciate da OpenAI.

Un altro caso d’uso interessante è cambiare la nostra esperienza all’interno dei musei e di altri luoghi simili. Immagina per un attimo che i sistemi di guida audio comunemente presenti nei musei vengano sostituiti da una telecamera discreta applicata alla tua maglietta. Supponiamo che tu stia visitando un museo d’arte. Mentre cammini per il museo, questa tecnologia può fornirti informazioni su ogni quadro e farlo con uno stile specifico scelto da te. Diciamo che sei un po’ stanco e hai bisogno di qualcosa di coinvolgente e leggero, potresti chiedere a questa tecnologia “Dammi un contesto storico sul quadro, ma rendilo coinvolgente e divertente, puoi anche aggiungere qualche battuta”.

Cosa ne dici della Realtà Aumentata (AR)? Questa nuova tecnologia può migliorarla o addirittura sostituirla? Al momento, la AR è vista come uno strato digitale che possiamo sovrapporre alla nostra percezione visiva del mondo reale. Il problema è che può diventare rapidamente confusionaria. Queste nuove tecnologie potrebbero sostituire la AR in alcuni casi d’uso. In altri casi, possono rendere la AR personalizzata per ognuno di noi, così da poter vivere il mondo al nostro ritmo.

In questo articolo, esploreremo come combinare GPT-4V(ision) e Text-to-Speech per rendere il mondo più inclusivo e accessibile per i non vedenti. Inizieremo spiegando come funziona GPT-4V(ision) e la sua architettura (utilizzeremo alcuni controfigura open-source per comprendere l’intuizione poiché…