Da Suono a Vista Conosci AudioToken per la Sintesi Audio-Immagine

AudioToken for Audio-Image Synthesis From Sound to Sight

I modelli generativi neurali hanno trasformato il modo in cui consumiamo contenuti digitali, rivoluzionando vari aspetti. Hanno la capacità di generare immagini di alta qualità, garantire coerenza in lunghi tratti di testo e persino produrre discorsi e audio. Tra i diversi approcci, i modelli generativi basati sulla diffusione hanno acquisito importanza e hanno mostrato risultati promettenti in varie attività. 

Durante il processo di diffusione, il modello impara a mappare una distribuzione di rumore predefinita alla distribuzione di dati target. Ad ogni passaggio, il modello predice il rumore e genera il segnale dalla distribuzione target. I modelli di diffusione possono operare su diverse forme di rappresentazioni di dati, come l’input grezzo e le rappresentazioni latenti. 

I modelli all’avanguardia, come Stable Diffusion, DALLE e Midjourney, sono stati sviluppati per le attività di sintesi testo-immagine. Anche se l’interesse per la generazione X-to-Y è aumentato negli ultimi anni, i modelli audio-to-image non sono ancora stati approfonditi. 

La ragione per l’utilizzo di segnali audio anziché prompt di testo è dovuta all’interconnessione tra immagini e audio nel contesto dei video. Al contrario, anche se i modelli generativi basati sul testo possono produrre immagini notevoli, le descrizioni testuali non sono inherentemente collegate all’immagine, il che significa che le descrizioni testuali sono di solito aggiunte manualmente. I segnali audio hanno, inoltre, la capacità di rappresentare scene e oggetti complessi, come diverse variazioni dello stesso strumento (ad esempio la chitarra classica, la chitarra acustica, la chitarra elettrica, ecc.) o diverse prospettive dell’oggetto identico (ad esempio la chitarra classica registrata in uno studio rispetto a uno spettacolo dal vivo). L’annotazione manuale di informazioni dettagliate per oggetti distinti è impegnativa dal punto di vista del lavoro, il che rende la scalabilità una sfida. 

Studi precedenti hanno proposto diversi metodi per generare audio da input di immagini, principalmente utilizzando una rete generativa avversaria (GAN) per generare immagini basate su registrazioni audio. Tuttavia, ci sono notevoli distinzioni tra il loro lavoro e il metodo proposto. Alcuni metodi si sono concentrati esclusivamente sulla generazione di cifre MNIST e non hanno esteso il loro approccio per comprendere i suoni audio generali. Altri hanno generato immagini da un audio generale, ma hanno prodotto immagini di bassa qualità.

Per superare le limitazioni di questi studi, è stato proposto un modello DL per la generazione audio-to-image. La sua panoramica è rappresentata nella figura sottostante.

Questo approccio prevede di sfruttare un modello di generazione testo-immagine pre-addestrato e un modello di rappresentazione audio pre-addestrato per apprendere uno strato di adattamento che mappa le loro uscite e input. Tratto da recenti lavori sulle inversioni testuali, viene introdotto un token audio dedicato per mappare le rappresentazioni audio in un vettore di embedding. Questo vettore viene quindi inoltrato nella rete come rappresentazione continua, riflettendo un nuovo embedding di parole. 

L’Audio Embedder utilizza una rete di classificazione audio pre-addestrata per catturare la rappresentazione audio. Tipicamente, l’ultimo strato della rete discriminativa è impiegato per scopi di classificazione, ma spesso trascura importanti dettagli audio non correlati al compito discriminativo. Per affrontare questo problema, l’approccio combina i layer precedenti con l’ultimo layer nascosto, risultando in un embedding temporale del segnale audio.

I risultati campione prodotti dal modello presentato sono riportati di seguito.

Questo è stato il riassunto di AudioToken, un nuovo modello di sintesi audio-to-image (A2I). Se sei interessato, puoi saperne di più su questa tecnica ai link riportati di seguito.