API di Speech del Web Cosa funziona, cosa non funziona e come migliorarlo collegandolo a un modello di linguaggio GPT

API di Conversione del Testo in Voce del Web Funzionamento, Limitazioni e Miglioramenti con GPT Language Model

Parte di una serie su come l’IA moderna e altre tecnologie potrebbero aiutare interazioni uomo-computer più efficienti

Foto di palesa su Unsplash

Sono convinto che le moderne tecnologie consentano oggi interazioni uomo-computer molto più semplici e naturali rispetto a quelle proposte attualmente dal software. Infatti, penso che le tecnologie siano abbastanza mature da poter fare a meno delle interfacce tradizionali e progredire con una rivoluzione nell’esperienza utente.

I grandi modelli di linguaggio hanno certamente scatenato una fase di questa rivoluzione, soprattutto nel modo in cui richiediamo informazioni. Tuttavia, penso che le tecnologie possano ancora offrire molto di più. Ad esempio, siamo ancora largamente bloccati con schermi piatti nonostante il decremento dei costi dei visori VR; stiamo ancora utilizzando mouse, tastiera e gesti touch per il funzionamento dei dispositivi nonostante il livello di avanzamento di tecnologie come il puntamento degli occhi, il riconoscimento vocale e il tracciamento degli arti del corpo; continuiamo a leggere molto nonostante i grandi progressi nella sintesi vocale.

Ritengo che le attuali tecnologie siano abbastanza mature da offrire interazioni uomo-computer quasi come quelle di Star Trek (se non sai a cosa mi riferisco, guarda questo), eppure vogliamo rimanere bloccati nel passato.

Con questo articolo inizio una breve serie dedicata a come le interazioni uomo-computer potrebbero cambiare per sempre grazie alle moderne tecnologie che già funzionano molto bene, come potrai testare tu stesso con i frammenti di codice e gli esempi di app che condividerò.

Fedele al mio stile, parlerò specificamente delle implementazioni basate sul web di tutte queste moderne tecnologie. E inizio qui con l’API di riconoscimento vocale integrata nei browser web, discutendo della sua potenza, mostrando alcuni casi d’uso, evidenziando limitazioni ed esemplificando come alcuni di questi limiti possono essere superati accoppiandola ai grandi modelli di linguaggio.

Questa serie si basa su un recente progetto su cui ho lavorato per costruire un’app web di prima esecuzione per la grafica e la modellazione molecolare immersiva e multiutente, HandMol: