Conosci AudioGPT un sistema AI multi-modale che collega ChatGPT con modelli di base audio

Conosci AudioGPT, un sistema AI multi-modale che collega ChatGPT con modelli audio di base.

La comunità di intelligenza artificiale è ora significativamente influenzata dai grandi modelli di linguaggio, e l’introduzione di ChatGPT e GPT-4 ha avanzato l’elaborazione del linguaggio naturale. Grazie all’ampio testo web e all’architettura robusta, i modelli di linguaggio LLM possono leggere, scrivere e conversare come gli esseri umani. Nonostante le applicazioni di successo nell’elaborazione e nella generazione di testo, il successo della modalità audio (musica, suoni e talking head) è limitato, anche se è molto vantaggioso perché: 1) Nello scenario reale, gli esseri umani comunicano utilizzando il linguaggio parlato durante le conversazioni quotidiane e utilizzano assistenti vocali per rendere la vita più comoda; 2) È necessario elaborare le informazioni nella modalità audio per ottenere il successo nella generazione artificiale.

Il passo cruciale per i modelli LLM verso sistemi di intelligenza artificiale più sofisticati è comprendere e produrre voce, musica, suoni e talking head. Nonostante i vantaggi della modalità audio, è ancora difficile addestrare i modelli LLM che supportano l’elaborazione audio a causa dei seguenti problemi: 1) Dati: Molte fonti offrono poche conversazioni parlate del mondo reale e ottenere dati di discorsi etichettati dall’uomo è un’operazione costosa e che richiede tempo. Inoltre, è necessario disporre di dati multilingue di conversazioni parlate rispetto ai vasti corpora di testo web e la quantità di dati è limitata. 2) Risorse computazionali: Addestrare modelli LLM multi-modalità da zero richiede molte risorse computazionali e molto tempo.

Nei lavori presentati, i ricercatori dell’Università di Zhejiang, dell’Università di Pechino, dell’Università Carnegie Mellon e dell’Università Remin della Cina presentano “AudioGPT”, un sistema realizzato per eccellere nella comprensione e nella produzione di modalità audio nei dialoghi parlanti. In particolare:

  1. Utilizzano una varietà di modelli di base audio per elaborare informazioni audio complesse anziché addestrare modelli LLM multi-modalità da zero.
  2. Collegano i modelli LLM con interfacce di input/output per le conversazioni vocali anziché addestrare un modello di linguaggio parlato.
  3. Utilizzano i modelli LLM come interfaccia generale che consente ad AudioGPT di risolvere numerosi compiti di comprensione e generazione audio.

Sarebbe inutile iniziare l’addestramento da zero poiché i modelli di base audio sono già in grado di comprendere e produrre discorsi, musica, suoni e talking head.

Utilizzando interfacce di input/output, ChatGPT e linguaggio parlato, i modelli LLM possono comunicare in modo più efficace convertendo il parlato in testo. ChatGPT utilizza il motore di conversazione e il gestore delle richieste per determinare l’intento dell’utente durante l’elaborazione dei dati audio. Il processo di AudioGPT può essere suddiviso in quattro parti, come mostrato nella Figura 1:

• Trasformazione della modalità: Utilizzando interfacce di input/output, ChatGPT e linguaggio parlato, i modelli LLM possono comunicare in modo più efficace convertendo il parlato in testo.

• Analisi dei compiti: ChatGPT utilizza il motore di conversazione e il gestore delle richieste per determinare l’intento dell’utente durante l’elaborazione dei dati audio.

• Assegnazione di un modello: ChatGPT assegna i modelli di base audio per la comprensione e la generazione dopo aver ricevuto gli argomenti strutturati per la prosodia, il timbro e il controllo del linguaggio.

• Progettazione della risposta: Generazione e fornitura di una risposta finale ai consumatori dopo l’esecuzione del modello di base audio.

Figura 1: Una panoramica generale di AudioGPT. Trasformazione della modalità, analisi dei compiti, assegnazione del modello e generazione della risposta sono i quattro processi che compongono AudioGPT. Per gestire compiti audio difficili, fornisce a ChatGPT modelli di base audio. Inoltre, si collega a un’interfaccia di trasformazione delle modalità per consentire la comunicazione parlata. Sviluppiamo linee guida di progettazione per valutare la coerenza, la capacità e la robustezza dei modelli LLM multi-modalità.

Valutare l’efficacia dei modelli LLM multi-modalità nella comprensione dell’intento umano e nell’orchestrazione della collaborazione di vari modelli di base sta diventando un problema di ricerca sempre più popolare. I risultati degli esperimenti mostrano che AudioGPT può elaborare dati audio complessi in dialoghi multi-round per diverse applicazioni di intelligenza artificiale, inclusa la creazione e la comprensione di discorsi, musica, suoni e talking head. Descrivono i concetti di progettazione e la procedura di valutazione per la coerenza, la capacità e la robustezza di AudioGPT in questo studio.

Propongono AudioGPT, che fornisce a ChatGPT modelli di base audio per compiti audio sofisticati.

Questo è uno dei principali contributi del paper. Un’interfaccia di trasformazione delle modalità è accoppiata a ChatGPT come interfaccia generale per consentire la comunicazione parlata. Descrivono i concetti di progettazione e la procedura di valutazione per i modelli LLM multi-modalità e valutano la coerenza, la capacità e la robustezza di AudioGPT. AudioGPT comprende ed elabora efficacemente l’audio con numerosi round di discussione, consentendo alle persone di produrre materiale audio ricco e vario con una semplicità mai vista prima. Il codice è stato reso open source su GitHub.