Hugging Face Research introduce Distil-Whisper Un modello compatto di riconoscimento del parlato che colma il divario nelle prestazioni elevate, in ambienti a bassa risorsa

Hugging Face Research presenta Distil-Whisper un modello compatto per il riconoscimento del parlato, che supera le sfide delle risorse limitate e garantisce prestazioni elevate

I ricercatori di Hugging Face hanno affrontato il problema di implementare modelli di riconoscimento del parlato pre-allenati di grandi dimensioni in ambienti limitati. Ciò è stato realizzato creando un sostanziale dataset open-source tramite pseudo-etichettatura. Il dataset è stato poi utilizzato per distillare una versione più piccola del modello Whisper, chiamata Distil-Whisper.

Il modello di trasformazione di riconoscimento del parlato Whisper è stato pre-allenato su 680.000 ore di dati vocali rumorosi su internet. Comprende componenti di codificatori e decodificatori basati su trasformatori e ottiene risultati competitivi in uno scenario senza adattamento. Distil-Whisper è una versione compatta ottenuta tramite distillazione di conoscenza utilizzando pseudo-etichettatura. Distil-Whisper mantiene la resilienza del modello Whisper in condizioni acustiche difficili mitigando gli errori di allucinazione nell’audio di lunga durata. La ricerca introduce un metodo di pseudo-etichettatura su larga scala per i dati vocali, un percorso ancora inesplorato ma promettente per la distillazione della conoscenza.

I sistemi di riconoscimento del parlato automatico (ASR) hanno raggiunto un’accuratezza paragonabile a quella umana ma affrontano sfide legate alla dimensione crescente dei modelli pre-allenati in ambienti limitati. Whisper, un grande modello di ASR pre-allenato, eccelle in vari dataset ma potrebbe risultare più pratico per l’implementazione a bassa latenza. Mentre la distillazione della conoscenza ha compresso efficacemente i modelli di trasformatori NLP, il suo utilizzo nel riconoscimento del parlato è ancora inesplorato.

L’approccio proposto utilizza la pseudo-etichettatura per costruire un dataset open-source di dimensioni considerevoli, facilitando la distillazione della conoscenza. Per garantire la qualità dell’allenamento, viene utilizzata una euristica di WER per selezionare le pseudo-etichette ottimali. L’obiettivo della distillazione della conoscenza prevede una combinazione di divergenza di Kullback-Leibler e termini di pseudo-etichetta, introducendo un componente di errore quadratico medio per allineare le uscite del livello nascosto dello studente con quelle del docente. Questa tecnica di distillazione viene applicata al modello Whisper all’interno del framework Seq2Seq ASR, garantendo una formattazione uniforme della trascrizione e offrendo indicazioni di distillazione a livello di sequenza.

Distil-Whisper, derivato dalla distillazione della conoscenza, migliora significativamente la velocità e riduce i parametri rispetto al modello Whisper originale pur mantenendo la resilienza in condizioni acustiche difficili. Vanta un’accelerazione di 5,8 volte con una riduzione del 51% dei parametri, ottenendo meno dell’1% di WER su dati di test fuori distribuzione in uno scenario senza adattamento. Il modello distil-medium.en ha un WER leggermente più alto ma mostra un’infrazione immediata 6,8 volte superiore e una compressione del modello del 75%. Il modello Whisper è suscettibile a errori di allucinazione nella trascrizione audio di lunga durata, mentre Distil-Whisper mitiga questi errori mantenendo un’efficace performance di WER.

In conclusione, Distil-Whisper è una variante compatta del modello Whisper ottenuta tramite distillazione della conoscenza. Questo approccio innovativo offre notevoli vantaggi in termini di velocità e riduzione dei parametri, con Distil-Whisper che risulta più veloce e con meno parametri rispetto al modello Whisper originale. Il modello distil-medium.en offre un’infrazione immediata maggiore e una sostanziale compressione del modello nonostante un WER leggermente più alto.

Le future opportunità di ricerca nella distillazione della conoscenza nel dominio audio e nella pseudo-etichettatura per la compressione di modelli basati su trasformatori nel riconoscimento del parlato sono promettenti. Investigare gli effetti di vari metodi di filtraggio e soglie sulla qualità della trascrizione e sulle prestazioni del modello downstream può offrire preziosi spunti per ottimizzare la distillazione della conoscenza. Esplorare tecniche alternative di compressione, inclusi metodi basati su livelli e l’utilizzo di termini di errore quadratico medio, potrebbe portare a una compressione ancora maggiore del modello senza sacrificare le prestazioni. La fornitura del codice di addestramento, del codice di inferenza e dei modelli in questo lavoro può essere una risorsa preziosa per ulteriori ricerche e sperimentazioni nella distillazione della conoscenza per il riconoscimento del parlato.