Google AI introduce Spectron il primo modello di intelligenza artificiale nel linguaggio parlato che è addestrato dall’inizio alla fine per elaborare direttamente gli spettrogrammi sia come input che come output.

Le LLM di continuazione della conversazione e di domanda-risposta sono strumenti versatili che possono essere applicati a una vasta gamma di compiti e settori, rendendoli preziosi per migliorare la produttività, migliorare l’esperienza degli utenti e promuovere la ricerca e lo sviluppo in vari campi. Esempi di successo di tali LLM includono GPT-3 e i suoi successori, che hanno ottenuto notevole attenzione per le loro impressionanti prestazioni nell’interpretazione e generazione di testo.

Questi LLM sono tipicamente costruiti su architetture di apprendimento profondo. Sono preaddestrati su grandi quantità di dati di testo, consentendo loro di comprendere le sfumature del linguaggio umano e generare testo che sia contestualmente pertinente e coerente, catturando i modelli statistici e le strutture del linguaggio naturale basato sul testo.

Il team di Google Research e Verily AI ha introdotto un nuovo modello di linguaggio parlato chiamato “Spectron”. Questo modello elabora direttamente gli spettrogrammi sia come input che come output. Uno spettrogramma è una rappresentazione visiva dello spettro di frequenze di un segnale mentre variano nel tempo. Questo modello utilizza strati intermedi di proiezione per sfruttare le capacità audio di un codificatore di discorsi preaddestrato. Questo modello non solo elimina i pregiudizi induttivi, che di solito sorgono in un codificatore e decodificatore preaddestrati, ma lo fa anche senza sacrificare la fedeltà rappresentativa.

Il modello di linguaggio trascrive e genera continuazioni del testo, agendo come una “tavoletta intermedia” condizionata ulteriormente per la generazione audio. Le derivate della verità fondamentale esprimono informazioni ricche e a lungo raggio sulla forma del segnale. Il team utilizza questo fatto per supervisionare il modello e far corrispondere gli ordini superiori dei delta temporali e delle caratteristiche della verità fondamentale utilizzando una regressione dello spettrogramma.

L’architettura del modello è inizializzata con un codificatore vocale preaddestrato e un decodificatore del language preaddestrato. Il codificatore viene sollecitato con una pronuncia e viene codificato in caratteristiche linguistiche. Le caratteristiche agiscono come input per il decodificatore come prefisso e l’intero codificatore-decodificatore viene ottimizzato per minimizzare la cross-entropia congiuntamente. Questo metodo fornisce un prompt audio pronunciato, codificato e poi decodificato per dare continuazioni di testo e audio.

I ricercatori hanno utilizzato la stessa architettura per decodificare il testo intermedio e gli spettrogrammi. Ciò comporta due vantaggi. In primo luogo, la preaddestrazione del LM nel dominio del testo per continuare il prompt nel dominio del testo prima di sintetizzare il discorso. In secondo luogo, il testo previsto serve come ragionamento intermedio, migliorando la qualità del discorso sintetizzato, analogamente ai miglioramenti nei modelli linguistici basati sul testo.

Tuttavia, il loro lavoro è complesso in termini di tempo e spazio. Richiede la generazione di più frames di spettrogramma, che è un processo lento. Ciò rende impossibile la generazione di lunghe pronunce. Un’altra limitazione è che il modello non può eseguire il processo di decodifica del testo e dello spettrogramma in parallelo. In futuro, il team si concentrerà sullo sviluppo di un algoritmo di decodifica parallelo.