Ricercatori di Meta AI e dell’Università di Cambridge esaminano come i Large Language Models (LLM) possano essere sollecitati con abilità di riconoscimento del linguaggio parlato

Ricercatori di Meta AI e Università di Cambridge studiano l'uso dei Large Language Models (LLM) per il riconoscimento del linguaggio parlato.

I modelli linguistici di grandi dimensioni sono la nuova tendenza, grazie all’introduzione del famoso ChatGPT. Sviluppato da OpenAI, questo chatbot fa di tutto, dalle risposte precise alle domande, al riassunto di lunghi paragrafi di dati testuali, al completamento di frammenti di codice, alla traduzione del testo in diverse lingue, e così via. Gli LLM hanno capacità di imitazione umana e si basano su sottocampi dell’Intelligenza Artificiale, tra cui l’Elaborazione del Linguaggio Naturale, la Comprensione del Linguaggio Naturale, la Generazione del Linguaggio Naturale, la Visione Artificiale, e così via.

Senza alcuna supervisione esplicita, gli LLM vengono addestrati anticipando la parola successiva in una quantità enorme di dati testuali, grazie ai quali sviluppano la capacità di codificare una grande quantità di conoscenza sul mondo esterno all’interno dei vincoli delle loro reti neurali, rendendoli utili per una varietà di compiti successivi. Sebbene gli LLM abbiano mostrato grandi prestazioni in diversi campi, recenti ricerche hanno incorporato un piccolo codificatore audio nel modello per estendere ulteriormente le capacità degli LLM abilitando il riconoscimento vocale.

La procedura prevede l’incorporazione diretta di una serie di incorporamenti audio, come rappresentazioni dei dati audio, negli incorporamenti di token di testo già esistenti. Ciò consente agli LLM di eseguire compiti di riconoscimento vocale automatico (ASR) simili a quelli basati su testo grazie alla loro rappresentazione integrata. Possono anche tradurre la comunicazione parlata in testo stampato. Il team ha condiviso che un grande modello linguistico solo decoder può eseguire il riconoscimento vocale multilingue e supera le basi di addestramento monolingue supervisionato quando addestrato su una sequenza audio. La dimensione e il frame rate del modello codificatore audio, l’adattamento a basso rango dei parametri LLM, la mascheratura dei token di testo e il tipo di grande modello linguistico utilizzato sono solo alcune delle variabili che la ricerca esamina per migliorare l’accuratezza del riconoscimento.

Attraverso l’analisi degli output del codificatore audio che gli incorporamenti audio corrispondono accuratamente ai token di testo corrispondenti, il team ha dimostrato la fusione efficace delle informazioni audio e testuali. Per la valutazione, il team ha utilizzato il dataset Multilingual LibriSpeech (MLS) per valutare l’efficacia di questa strategia. L’LLaMA-7B open source, un grande modello linguistico, incorpora un codificatore conformer, un tipo di rete neurale specificamente progettata per l’elaborazione audio. I risultati hanno mostrato che questa modifica consente agli LLM di ottenere prestazioni migliori del 18% nei compiti di riconoscimento vocale rispetto alle basi monolingue. L’LLaMA-7B, che è stato principalmente addestrato nel testo inglese, eccelle nel riconoscimento vocale multilingue.

Oltre all’esperimento principale, la ricerca ha anche esaminato altri aspetti delle prestazioni degli LLM potenziati. Per scoprire se gli LLM possono essere congelati durante l’addestramento mantenendo le loro capacità iniziali, i ricercatori hanno condotto prove di ablatività. Questo implica di evitare di modificare i parametri degli LLM durante l’addestramento del sistema ASR e dimostra che è comunque in grado di eseguire bene l’ASR multilingue anche quando l’LLM è congelato.

Il team ha anche indagato gli effetti dell’aumento delle dimensioni del codificatore audio, dell’aumento dello stride del codificatore audio, che è un parametro associato a come l’audio viene suddiviso, e della produzione di un numero inferiore di incorporamenti audio. Attraverso questi test, l’obiettivo è migliorare l’efficacia e l’efficienza del sistema ASR. In conclusione, l’approccio sembra promettente poiché i risultati dimostrano la fattibilità dell’ASR multilingue anche con codificatori audio più grandi o passi più lunghi, suggerendo che gli LLM sono in grado di elaborare input audio di lunghezza significativa.