Rivoluzionare le capacità di ascolto dell’IA l’Università di Tsinghua e ByteDance presentano SALMONN – una rivoluzionaria rete neurale multimodale per l’elaborazione audio avanzata

Rivoluzionare l'ascolto dell'IA l'Università di Tsinghua e ByteDance presentano SALMONN, una rete neurale multimodale avanzata per l'elaborazione audio

“`html

In diverse applicazioni di elaborazione del linguaggio naturale, i grandi modelli di lingua basati su testo hanno dimostrato prestazioni impressionanti persino a livello umano. Nel frattempo, si è evoluto un paradigma di formazione delle LLM noto come sintonizzazione dell’istruzione, in cui i dati sono organizzati come coppie di istruzioni dell’utente e risposta di riferimento, che consente alle LLM di conformarsi a comandi dell’utente non limitati. Sempre più ricercatori sono interessati ad equipaggiare le LLM con abilità multimodali sensoriali. La ricerca attuale si concentra sul collegamento delle LLM con il codificatore di uno o più tipi di input, come un’immagine, un video silenzioso, un evento audio o un discorso, oppure con i codificatori di molteplici tipi di input insieme.

Per allineare gli spazi di output dei codificatori con lo spazio di input delle LLM, che viene spesso insegnato tramite preformazione cross-modale e sintonizzazione dell’istruzione, è possibile utilizzare un modulo di connessione e adattatori LLM. La rete neurale aperta di lingua audio musicale proposta in questo studio, chiamata SALMONN, è una LLM multimodale audio-testo singola che può riconoscere e comprendere il discorso, gli eventi audio e la musica, le tre principali categorie di suoni. SALMONN utilizza una struttura di codificatori duali, composta da un codificatore audio BEATs e un codificatore del discorso dal modello di discorso Whisper, per migliorare le prestazioni su applicazioni audio di discorso e non discorso.

Per migliorare ulteriormente le prestazioni di Vicuna, viene utilizzata la strategia di adattamento di basso rango come adattatore cross-modale per abbinare lo spazio di input ampliato con lo spazio di output. Le fasi di preformazione cross-modale e sintonizzazione dell’istruzione di Q-Former e LoRA a livello di finestra includono molte sfide di discorso, audio e musica. Le LLM multimodali risultanti mostrano poche o nulle abilità emergenti cross-modali e possono essere limitate ai tipi specifici di compiti utilizzati nella sintonizzazione dell’istruzione, in particolare la didascalia audio e il riconoscimento vocale, che viene definito il problema dell’adattamento al compito. La capacità di eseguire compiti cross-modali che non vengono notati durante la formazione viene definita in questo studio come abilità emergenti cross-modali. Queste abilità rappresentano fondamentalmente le capacità emergenti delle LLM che vengono perse durante la personalizzazione dell’istruzione.

Al fine di mitigare il significativo oblio catastrofico delle attività di formazione, suggeriscono di aggiungere una fase di sintonizzazione di attivazione a poche riprese alla dotazione di SALMONN. Le abilità cognitive di ascolto di SALMONN vengono valutate utilizzando una serie di standard per il discorso, gli eventi uditivi e la musica. Ci sono tre livelli per i compiti. I primi due livelli testano attività non addestrate, mentre il primo livello comprende otto compiti che vengono insegnati nella sintonizzazione dell’istruzione, inclusa la didascalia audio, la traduzione e il riconoscimento vocale. Il secondo livello include cinque compiti di elaborazione del linguaggio naturale (NLP) basati sul discorso, tra cui il riempimento degli slot e la traduzione in lingue non addestrate. Questi compiti richiedono allineamenti multilingue e di alta qualità tra token vocali e di testo.

Comprendere le informazioni uditive non discorsive è necessario per l’ultimo insieme di attività, come la narrazione basata sull’audio e la co-roagionazione audio del discorso. I risultati degli esperimenti dimostrano che SALMONN può completare tutti questi compiti e competere con successo sui punti di riferimento del settore quando utilizzato come modello singolo. Ciò suggerisce che è possibile creare intelligenza artificiale in grado di “sentire” e comprendere una vasta gamma di input audio, tra cui il discorso, gli eventi audio e la musica.

La principale contribuzione di questo articolo può essere così riassunta:

• Per quanto ne sappiamo, i ricercatori dell’Università Tsinghua e di ByteDance offrono SALMONN, la prima LLM multimodale che può riconoscere e comprendere input audio generali, compresi la voce, gli eventi audio e la musica.

• Variando il fattore di scala LoRA, indagano l’esistenza di abilità emergenti cross-modali. Suggeriscono quindi una tecnica di sintonizzazione delle attivazioni a basso costo come passaggio di formazione aggiuntivo che può attivare queste abilità e ridurre l’oblio catastrofico delle attività incontrate durante la formazione.

• Forniscono due nuovi compiti, la narrazione basata sull’audio e la co-raagionazione audio del discorso, e valutano SALMONN su una varietà di compiti che rappresentano una serie di abilità uditiva generali.

“`