Vedere con il suono fornire potere alle persone ipovedenti con GPT-4V(ision) e la tecnologia di Text-to-Speech
Offrire potere alle persone ipovedenti con GPT-4V(ision) e Text-to-Speech Vedere con il suono
Migliorare la Navigazione per i Difetti Visivi: Integrare GPT-4V(ision) e TTS per un’Assistenza Sensoriale Avanzata
Questo articolo è stato scritto a quattro mani con Rafael Guedes.
Introduzione
Le ultime novità di OpenAI hanno portato l’usabilità dell’Intelligenza Artificiale a un livello completamente nuovo con il rilascio delle API di GPT-4V(ision) e Text-to-Speech (TTS). Perché? Motiviamo la loro utilità con un caso d’uso. Camminare per strada è un’attività semplice per la maggior parte di noi, ma per coloro che hanno dei difetti visivi, ogni passo può rappresentare una sfida. Gli ausili tradizionali come i cani guida e i bastoni sono stati utili, ma l’integrazione delle tecnologie dell’IA apre un nuovo capitolo nell’incremento dell’indipendenza e della mobilità della comunità dei non vedenti. Semplici occhiali dotati di una telecamera discreta sarebbero sufficienti per rivoluzionare il modo in cui i non vedenti percepiscono ciò che li circonda. Spiegheremo come ciò possa essere fatto utilizzando le ultime versioni rilasciate da OpenAI.
Un altro caso d’uso interessante è cambiare la nostra esperienza all’interno dei musei e di altri luoghi simili. Immagina per un attimo che i sistemi di guida audio comunemente presenti nei musei vengano sostituiti da una telecamera discreta applicata alla tua maglietta. Supponiamo che tu stia visitando un museo d’arte. Mentre cammini per il museo, questa tecnologia può fornirti informazioni su ogni quadro e farlo con uno stile specifico scelto da te. Diciamo che sei un po’ stanco e hai bisogno di qualcosa di coinvolgente e leggero, potresti chiedere a questa tecnologia “Dammi un contesto storico sul quadro, ma rendilo coinvolgente e divertente, puoi anche aggiungere qualche battuta”.
Cosa ne dici della Realtà Aumentata (AR)? Questa nuova tecnologia può migliorarla o addirittura sostituirla? Al momento, la AR è vista come uno strato digitale che possiamo sovrapporre alla nostra percezione visiva del mondo reale. Il problema è che può diventare rapidamente confusionaria. Queste nuove tecnologie potrebbero sostituire la AR in alcuni casi d’uso. In altri casi, possono rendere la AR personalizzata per ognuno di noi, così da poter vivere il mondo al nostro ritmo.
- Dovrebbero le macchine usare la GenAI per conversare tra loro in inglese?
- Dreamcraft3D Generazione 3D gerarchica con priorità di diffusione con bootstrap.
- Predire i touchdown nel football con il machine learning
In questo articolo, esploreremo come combinare GPT-4V(ision) e Text-to-Speech per rendere il mondo più inclusivo e accessibile per i non vedenti. Inizieremo spiegando come funziona GPT-4V(ision) e la sua architettura (utilizzeremo alcuni controfigura open-source per comprendere l’intuizione poiché…