Koe AI svela LLVC un modello rivoluzionario di conversione vocale in tempo reale con efficienza e velocità senza precedenti

Koe AI svela LLVC il rivoluzionario modello di conversione vocale in tempo reale con efficienza e velocità senza precedenti

Un team di ricercatori di Koe AI ha introdotto LLVC (Low-latency, Low-resource Voice Conversion), un modello progettato per la conversione vocale any-to-one in tempo reale, caratterizzato da latenza ultra-bassa e consumo minimo di risorse. Funziona in modo efficiente a una velocità notevole su una CPU consumer standard. Lo studio offre generosamente accesso ai campioni LLVC open-source, al codice e ai pesi pre-addestrati del modello per una maggiore accessibilità.

Il modello LLVC consiste in un generatore e un discriminatore, con solo il generatore utilizzato durante l’inferenza. La valutazione utilizza i dati di test di LibriSpeech e impiega Mean Opinion Scores di Amazon Mechanical Turk per valutare la naturalezza e la similitudine con il parlante target. Viene anche discusso l’uso del distillazione di conoscenza, che coinvolge un modello di insegnante più grande a guidare un modello di studente più piccolo per migliorare l’efficienza computazionale.

La conversione vocale consiste nella trasformazione del parlato per adattarsi allo stile di un altro parlante mantenendo il contenuto e l’intonazione originali. Raggiungere la conversione vocale in tempo reale, con un’operazione più veloce del tempo reale, bassa latenza e limitato accesso al contesto audio futuro, è un compito impegnativo. Le reti di sintesi del parlato ad alta qualità esistenti devono essere più adatte a queste sfide. LLVC, radicato nell’architettura Waveformer, è progettato per affrontare le esigenze uniche della conversione vocale in tempo reale.

LLVC impiega una struttura generativa avversaria e una distillazione di conoscenza per raggiungere un’efficienza notevole, caratterizzata da bassa latenza e utilizzo delle risorse. Integra le architetture DCC Encoder e Transformer Decoder con alcune modifiche personalizzate. LLVC viene addestrato su un dataset parallelo in cui le voci di oratori diversi vengono trasformate per imitare uno specifico parlante target, con l’obiettivo centrale di ridurre le differenze percepibili tra l’output del modello e il discorso sintetico target.

LLVC raggiunge in modo impressionante una latenza inferiore a 20 ms a una velocità di campionamento di 16 kHz, superando l’elaborazione in tempo reale di quasi 2,8 volte su CPU consumer-grade. È punto di riferimento vantaggiando il consumo di risorse e la latenza più bassi tra i modelli open-source di conversione vocale. Per valutare la sua qualità e auto-similarità, le prestazioni del modello vengono valutate utilizzando frammenti di N secondi dai file di test-clean di LibriSpeech. In confronto, LLVC compete con No-F0 RVC e QuickVC, entrambi selezionati per la loro minima latenza di inferenza su CPU.

Lo studio si concentra esclusivamente sulla conversione vocale any-to-one in tempo reale su CPU, trascurando l’esplorazione delle prestazioni del modello su hardware diversi o confronti con modelli esistenti su diverse configurazioni. La valutazione è limitata alla latenza e all’uso delle risorse, mancando un’analisi della qualità e della naturalezza del parlato. L’assenza di un’analisi dettagliata degli iperparametri ostacola la riproducibilità e l’ottimizzazione per esigenze specifiche. Lo studio trascura la discussione delle sfide reali di LLVC, inclusa la scalabilità, la compatibilità del sistema operativo e le questioni linguistiche o legate all’accento.

In conclusione, la ricerca stabilisce la fattibilità della conversione vocale a bassa latenza ed efficiente in termini di risorse attraverso LLVC, un modello che opera in tempo reale su CPU consumer quotidiane, eliminando la necessità di GPU dedicate. LLVC trova applicazione pratica nella sintesi del parlato, nell’anonimizzazione della voce e nell’alterazione dell’identità vocale. Il suo utilizzo di un’architettura generativa avversaria e di una distillazione di conoscenza definisce un nuovo standard per i modelli open-source di conversione vocale, privilegiando l’efficienza. LLVC offre il potenziale per la conversione vocale personalizzata mediante un’affinazione dei dati da singolo input degli oratori. L’ampliamento del dataset di addestramento per comprendere il parlato multilingue e rumoroso potrebbe migliorare l’adattabilità del modello a diversi oratori.