Conosci AudioGPT un sistema AI multi-modale che collega ChatGPT con modelli di base audio

Conosci AudioGPT, un sistema AI multi-modale che collega ChatGPT con modelli audio di base.

La comunità di intelligenza artificiale è ora significativamente influenzata dai grandi modelli di linguaggio, e l’introduzione di ChatGPT e GPT-4 ha avanzato l’elaborazione del linguaggio naturale. Grazie all’ampio testo web e all’architettura robusta, i modelli di linguaggio LLM possono leggere, scrivere e conversare come gli esseri umani. Nonostante le applicazioni di successo nell’elaborazione e nella generazione di testo, il successo della modalità audio (musica, suoni e talking head) è limitato, anche se è molto vantaggioso perché: 1) Nello scenario reale, gli esseri umani comunicano utilizzando il linguaggio parlato durante le conversazioni quotidiane e utilizzano assistenti vocali per rendere la vita più comoda; 2) È necessario elaborare le informazioni nella modalità audio per ottenere il successo nella generazione artificiale.

Il passo cruciale per i modelli LLM verso sistemi di intelligenza artificiale più sofisticati è comprendere e produrre voce, musica, suoni e talking head. Nonostante i vantaggi della modalità audio, è ancora difficile addestrare i modelli LLM che supportano l’elaborazione audio a causa dei seguenti problemi: 1) Dati: Molte fonti offrono poche conversazioni parlate del mondo reale e ottenere dati di discorsi etichettati dall’uomo è un’operazione costosa e che richiede tempo. Inoltre, è necessario disporre di dati multilingue di conversazioni parlate rispetto ai vasti corpora di testo web e la quantità di dati è limitata. 2) Risorse computazionali: Addestrare modelli LLM multi-modalità da zero richiede molte risorse computazionali e molto tempo.

Nei lavori presentati, i ricercatori dell’Università di Zhejiang, dell’Università di Pechino, dell’Università Carnegie Mellon e dell’Università Remin della Cina presentano “AudioGPT”, un sistema realizzato per eccellere nella comprensione e nella produzione di modalità audio nei dialoghi parlanti. In particolare:

Utilizzano una varietà di modelli di base audio per elaborare informazioni audio complesse anziché addestrare modelli LLM multi-modalità da zero.
Collegano i modelli LLM con interfacce di input/output per le conversazioni vocali anziché addestrare un modello di linguaggio parlato.
Utilizzano i modelli LLM come interfaccia generale che consente ad AudioGPT di risolvere numerosi compiti di comprensione e generazione audio.

Sarebbe inutile iniziare l’addestramento da zero poiché i modelli di base audio sono già in grado di comprendere e produrre discorsi, musica, suoni e talking head.

Utilizzando interfacce di input/output, ChatGPT e linguaggio parlato, i modelli LLM possono comunicare in modo più efficace convertendo il parlato in testo. ChatGPT utilizza il motore di conversazione e il gestore delle richieste per determinare l’intento dell’utente durante l’elaborazione dei dati audio. Il processo di AudioGPT può essere suddiviso in quattro parti, come mostrato nella Figura 1:

• Trasformazione della modalità: Utilizzando interfacce di input/output, ChatGPT e linguaggio parlato, i modelli LLM possono comunicare in modo più efficace convertendo il parlato in testo.

• Analisi dei compiti: ChatGPT utilizza il motore di conversazione e il gestore delle richieste per determinare l’intento dell’utente durante l’elaborazione dei dati audio.

• Assegnazione di un modello: ChatGPT assegna i modelli di base audio per la comprensione e la generazione dopo aver ricevuto gli argomenti strutturati per la prosodia, il timbro e il controllo del linguaggio.

• Progettazione della risposta: Generazione e fornitura di una risposta finale ai consumatori dopo l’esecuzione del modello di base audio.

**Figura 1:** Una panoramica generale di AudioGPT. Trasformazione della modalità, analisi dei compiti, assegnazione del modello e generazione della risposta sono i quattro processi che compongono AudioGPT. Per gestire compiti audio difficili, fornisce a ChatGPT modelli di base audio. Inoltre, si collega a un’interfaccia di trasformazione delle modalità per consentire la comunicazione parlata. Sviluppiamo linee guida di progettazione per valutare la coerenza, la capacità e la robustezza dei modelli LLM multi-modalità.

Valutare l’efficacia dei modelli LLM multi-modalità nella comprensione dell’intento umano e nell’orchestrazione della collaborazione di vari modelli di base sta diventando un problema di ricerca sempre più popolare. I risultati degli esperimenti mostrano che AudioGPT può elaborare dati audio complessi in dialoghi multi-round per diverse applicazioni di intelligenza artificiale, inclusa la creazione e la comprensione di discorsi, musica, suoni e talking head. Descrivono i concetti di progettazione e la procedura di valutazione per la coerenza, la capacità e la robustezza di AudioGPT in questo studio.

Propongono AudioGPT, che fornisce a ChatGPT modelli di base audio per compiti audio sofisticati.

Questo è uno dei principali contributi del paper. Un’interfaccia di trasformazione delle modalità è accoppiata a ChatGPT come interfaccia generale per consentire la comunicazione parlata. Descrivono i concetti di progettazione e la procedura di valutazione per i modelli LLM multi-modalità e valutano la coerenza, la capacità e la robustezza di AudioGPT. AudioGPT comprende ed elabora efficacemente l’audio con numerosi round di discussione, consentendo alle persone di produrre materiale audio ricco e vario con una semplicità mai vista prima. Il codice è stato reso open source su GitHub.

AI Shorts,Applications,artificial intelligence,Editors Pick,Language Model,Large Language Model,Machine Learning,Staff,Tech News,Technology,Uncategorized

Ricercatori di UC Berkeley propongono FastRLAP un sistema per imparare la guida ad alta velocità tramite Deep RL (Reinforcement Learning) e pratica autonoma

Incontra Semantic-SAM un modello universale di segmentazione delle immagini che segmenta e riconosce oggetti a qualsiasi grado di dettaglio desiderato in base all’input dell’utente.

Conosci AudioGPT un sistema AI multi-modale che collega ChatGPT con modelli di base audio

Conosci AudioGPT, un sistema AI multi-modale che collega ChatGPT con modelli audio di base.

Ricercatori di UC Berkeley propongono FastRLAP un sistema per imparare la guida ad alta velocità tramite Deep RL (Reinforcement Learning) e pratica autonoma

Incontra Semantic-SAM un modello universale di segmentazione delle immagini che segmenta e riconosce oggetti a qualsiasi grado di dettaglio desiderato in base all’input dell’utente.

Una guida completa per trasformare il testo...

40+ Strumenti AI Interessanti da Controllar...

Incontra RPDiff un modello di diffusione pe...

Ricercatori dello Skoltech e dell’AIR...

Iniziare con la libreria di manipolazione d...

Come diventare un Data Strategist nel 2023?

AI