Il team di PlayHT presenta un modello di intelligenza artificiale con il concetto di emozioni per l’IA vocale generativa questo ti permetterà di controllare e dirigere la generazione del discorso con una particolare emozione.

Il team di PlayHT presenta un modello di IA vocale generativa con emozioni, per controllare e dirigere la generazione del discorso con una specifica emozione.

Il riconoscimento vocale è una delle tecniche sviluppate di recente nel campo dell’elaborazione del linguaggio naturale (NLP). Gli scienziati della ricerca hanno anche sviluppato grandi modelli di linguaggio per lo sviluppo di modelli IA generativi di testo-voce. Era molto chiaro che l’IA poteva ottenere risultati come gli esseri umani in termini di qualità della voce, espressioni, comportamento umano e molto altro ancora. Ma nonostante tutto ciò, c’erano problemi associati a questi modelli. Questi modelli avevano una minore diversità linguistica. C’erano alcuni problemi con il riconoscimento vocale, le emozioni e molti altri. Molti ricercatori hanno riconosciuto questi problemi e hanno scoperto che erano dovuti all’utilizzo di un piccolo dataset per il modello.

Sono stati avviati miglioramenti, e il team di PlayHT ha introdotto PlayHT2.0 come soluzione per questo caso di studio. Il principale vantaggio di questo modello era che utilizzava più lingue e elaborava un grande numero di dataset. La dimensione del modello è stata anche aumentata utilizzando questo modello. I trasformatori nell’NLP hanno anche giocato un ruolo importante nell’implementazione di questo modello. Il modello elabora le trascrizioni fornite e predice il suono. Questo avviene attraverso un processo di conversione del testo in discorso chiamato tokenizzazione. Ciò comporta la trasformazione di codici semplificati in onde sonore per la generazione di un discorso umano.

Il modello ha immense capacità conversazionali e può avere una conversazione come un normale essere umano con alcune emozioni. Queste tecniche tramite chatbot IA sono spesso utilizzate da molte aziende multinazionali per chiamate online e seminari. Il modello PlayHT2.0 ha anche migliorato la qualità del suono tramite le tecniche di ottimizzazione utilizzate in esso. Può anche replicare la voce esatta. Poiché il dataset utilizzato per il modello è estremamente grande, il modello può anche parlare un’altra lingua preservando l’originale. Il processo di addestramento del modello è stato eseguito attraverso un gran numero di epoche e iperparametri variabili. Ciò ha comportato il fatto che il modello agisse su una varietà di emozioni nelle tecniche di riconoscimento vocale.

Il modello è ancora in fase di sviluppo e migliorerà ulteriormente. Gli scienziati della ricerca stanno ancora lavorando al miglioramento delle emozioni. Gli ingegneri e molti ricercatori hanno anche scoperto che il modello potrebbe essere aggiornato nelle prossime settimane in termini di velocità, precisione e buon punteggio F1.