I ricercatori di Google presentano AudioPaLM una vera rivoluzione nella tecnologia del parlato – un nuovo grande modello di lingua che ascolta, parla e traduce con un’accuratezza senza precedenti.

Google researchers present AudioPaLM, a revolutionary speech technology - a new large language model that listens, speaks, and translates with unprecedented accuracy.

I modelli di lingua estesi (LLM) sono stati protagonisti per alcuni mesi. Essendo uno dei migliori avanzamenti nel campo dell’Intelligenza Artificiale, questi modelli stanno trasformando il modo in cui gli esseri umani interagiscono con le macchine. Poiché ogni industria sta adottando questi modelli, sono il miglior esempio di come l’AI stia conquistando il mondo. I LLM eccellono nella produzione di testo per compiti che coinvolgono interazioni complesse e il recupero di conoscenze, il miglior esempio dei quali è il famoso chatbot sviluppato da OpenAI, ChatGPT, basato sull’architettura Transformer di GPT 3.5 e GPT 4. Non solo nella generazione di testo, ma anche modelli come CLIP (Contrastive Language-Image Pretraining) sono stati sviluppati per la produzione di immagini, consentendo la creazione di testo in base al contenuto dell’immagine.

Per progredire nella generazione e comprensione audio, un team di ricercatori di Google ha introdotto AudioPaLM, un grande modello di lingua che può affrontare compiti di comprensione e generazione del parlato. AudioPaLM combina i vantaggi di due modelli esistenti, cioè il modello PaLM-2 e il modello AudioLM, al fine di produrre un’architettura multimodale unificata che può elaborare e produrre sia testo che parlato. Ciò consente ad AudioPaLM di gestire una varietà di applicazioni, dalle riconoscimento vocale alla conversione da voce a testo.

Mentre AudioLM è eccellente nel mantenere le informazioni paralinguistiche come l’identità e il tono dello speaker, PaLM-2, che è un modello di lingua basato sul testo, si specializza nella conoscenza linguistica specifica del testo. Combinando questi due modelli, AudioPaLM sfrutta l’esperienza linguistica di PaLM-2 e la preservazione delle informazioni paralinguistiche di AudioLM, portando ad una comprensione e creazione più approfondite sia del testo che del parlato.

AudioPaLM utilizza un vocabolario congiunto che può rappresentare sia il parlato che il testo utilizzando un numero limitato di token discreti. Combinando questo vocabolario con descrizioni di attività di markup, è possibile addestrare un singolo modello solo-decoder su una varietà di attività basate su voce e testo. Attività come il riconoscimento vocale, la sintesi vocale e la traduzione da voce a voce, che tradizionalmente venivano affrontate da modelli separati, possono ora essere unificate in un’unica architettura e processo di formazione.

Nella valutazione, AudioPaLM ha superato i sistemi esistenti nella traduzione del parlato con un margine significativo. Ha dimostrato la capacità di eseguire la traduzione da parlato a testo zero-shot per combinazioni linguistiche, il che significa che può tradurre con precisione il parlato in testo per lingue che non ha mai incontrato prima, aprendo possibilità per un supporto linguistico più ampio. AudioPaLM può anche trasferire voci tra lingue basandosi su brevi prompt parlati e può catturare e riprodurre voci distinte in lingue diverse, consentendo la conversione e l’adattamento delle voci.

Le principali contribuzioni menzionate dal team sono:

  1. AudioPaLM utilizza le capacità sia di PaLM che di PaLM-2 derivanti dal preaddestramento solo sul testo.
  1. Ha raggiunto risultati SOTA su benchmark di traduzione automatica del parlato e traduzione da parlato a parlato e prestazioni competitive su benchmark di riconoscimento vocale automatico.
  1. Il modello esegue la traduzione da parlato a parlato con il trasferimento della voce di speaker non visti, superando i metodi esistenti in qualità del parlato e conservazione della voce.
  1. AudioPaLM dimostra capacità zero-shot eseguendo la traduzione automatica del parlato con combinazioni linguistiche non viste.

In conclusione, AudioPaLM, che è un LLM unificato che gestisce sia il parlato che il testo utilizzando le capacità dei LLM basati sul testo e incorporando tecniche di prompting audio, è una promettente aggiunta alla lista dei LLM.