Incontra AUDIT Un modello di editing audio guidato dalle istruzioni basato sui modelli di diffusione latente
Introducing AUDIT a guided audio editing model based on latent diffusion models
I modelli di diffusione stanno rapidamente avanzando e rendendo la vita più facile. Dall’Elaborazione del Linguaggio Naturale alla Comprensione del Linguaggio Naturale fino alla Visione Artificiale, i modelli di diffusione hanno mostrato risultati promettenti in quasi ogni dominio. Questi modelli sono un recente sviluppo nell’IA generativa e sono un tipo di modello generativo profondo che può essere utilizzato per generare campioni realistici da distribuzioni complesse.
È stato recentemente introdotto un nuovo modello di diffusione da parte dei ricercatori che può facilmente modificare clip audio. Chiamato AUDIT, questo modello di diffusione latente è un modello di modifica audio guidato dalle istruzioni. La modifica audio consiste principalmente nel cambiare un segnale audio di input per produrre un’uscita audio modificata. Ciò include compiti come aggiungere effetti sonori di sottofondo, sostituire la musica di sottofondo, riparare audio incompleti o migliorare audio di bassa qualità. AUDIT prende sia l’audio di input che le istruzioni umane come condizioni e genera l’audio modificato in uscita.
I ricercatori hanno utilizzato dati di tripletta per addestrare il modello di diffusione per la modifica audio in modo supervisionato. I dati di tripletta utilizzati sono istruzioni, audio di input e audio di output. L’audio di input è stato utilizzato direttamente come input condizionale per garantire coerenza nei segmenti audio senza modifiche. Le istruzioni di modifica sono state utilizzate direttamente come guida testuale per rendere il modello più flessibile e adatto a scenari reali.
- Incontra Auto-GPT una applicazione open-source sperimentale che mostra il potere dei LLM come GPT-4 nello sviluppare e gestire autonomamente diversi tipi di compiti.
- Top AI Audio Enhancers (2023)’ I migliori miglioratori audio AI (2023)
- Top Estensioni per Chrome con Intelligenza Artificiale AI
Il team di ricercatori dietro AUDIT ha riassunto i loro contributi come segue –
- AUDIT è il primo sviluppo in cui un modello di diffusione è stato addestrato per la modifica audio, che utilizza le istruzioni testuali umane come condizione.
- È stato progettato un framework di costruzione dei dati per addestrare AUDIT in modo supervisionato.
- AUDIT è in grado di massimizzare la conservazione dei segmenti audio che non richiedono modifiche.
- AUDIT funziona bene con istruzioni semplici come guida testuale senza bisogno di una descrizione dettagliata dell’obiettivo di modifica.
- AUDIT ha ottenuto risultati notevoli sia in metriche oggettive che soggettive per una serie di compiti di modifica audio.
Il team ha condiviso alcuni esempi in cui AUDIT ha svolto un ottimo lavoro e ha modificato gli audio in modo preciso. Questi includono l’aggiunta del suono dei clacson delle auto nell’audio, la sostituzione del suono delle risate con il suono di una tromba, la rimozione del suono di una donna che parla dall’audio di qualcuno che fischia, e così via. AUDIT ha ottenuto risultati eccezionali nei compiti di modifica audio e ha mostrato grandi risultati in metriche oggettive e soggettive, tra cui i seguenti compiti.
- Aggiunta di un suono a una clip audio.
- Eliminazione o rimozione di un suono da una clip audio.
- Sostituzione di un evento sonoro nell’audio di input con un altro suono.
- Inpainting audio: completamento di un segmento audio mascherato in base al contesto o al prompt testuale fornito.
- Compito di super-risoluzione con il quale l’audio di input campionato a bassa frequenza può essere convertito in audio di output campionato ad alta frequenza.
In conclusione, AUDIT sembra essere un approccio promettente per il futuro che può semplificare la modifica audio flessibile ed efficace seguendo le istruzioni umane.