Distil-Whisper Avanzamenti nella tecnologia di voce-testo AI

Avanzamenti nella tecnologia di voce-testo AI Distil-Whisper

Distil-Whisper: Il nuovo approccio dell’IA alla trascrizione audio efficiente

Ricevi i miei blog e altro ancora sulla mia newsletter sull’IA e ricevi regali gratuiti, come i miei segreti per il successo su YouTube!

Guarda il video:

Come sai, già possiamo scambiare con le IA in formato scritto in modo estremamente efficiente e accurato, principalmente grazie a ChatGPT ma anche a alternative open-source. Il prossimo passo è parlare con loro fluentemente, usando la nostra voce. Se non lo hai ancora provato, OpenAI ha un’ottima IA per questo chiamata Whisper, che chiunque può pagare per usare e trascrivere voce o audio in testo che può poi essere utilizzato da qualsiasi modello o attività successiva. È estremamente potente ma sicuramente non è facile integrarsi bene in un’applicazione in tempo reale a causa della sua complessità computazionale e del tempo necessario per elaborare l’audio.

Sai quanto è fastidioso dover attendere un po’ prima che il tuo messaggio venga compreso. Ad esempio, con gli assistenti che abbiamo, come Siri o Google Assistant. I trascrittori dell’IA dovranno essere molto più efficienti prima che la voce in un’app basata sull’IA diventi una caratteristica senza interruzioni piacevole da avere piuttosto che solo una cosa divertente che provi ma non utilizzi nel tuo lavoro quotidiano. Fortunatamente, magnifici ricercatori stanno lavorando su questo problema di trascrizione audio e hanno recentemente condiviso Distil-Whisper. Un modello che è 6 volte più veloce del modello Whisper originale, del 49% più piccolo, mantenendo il 99% di precisione. E la cosa migliore è che è completamente open-source e puoi usarlo proprio ora.

Guarda il video per vedere esempi di risultati dal vivo!

Distil-Whisper è un miglioramento rispetto a Whisper sia per dimensioni che per rapidità. Non sta ottenendo risultati migliori, ma eguaglia i risultati, il che è già estremamente buono se sei familiare con Whisper: è abbastanza impressionante, capisce il linguaggio umano meglio di quanto io possa per la maggior parte degli accenti.

E sì, hai sentito bene. L’hanno reso quasi sei volte più veloce, 5,8 volte, per essere…