Alibaba presenterà la serie Qwen-Audio un insieme di modelli audio-lingua su larga scala con capacità di comprensione universale dell’audio

Alibaba lancia Qwen-Audio una serie di modelli audio-lingua su larga scala con capacità di comprensione universale dell'audio

Ricercatori del Gruppo Alibaba hanno introdotto Qwen-Audio, che affronta la sfida dei modelli audio pre-addestrati limitati per diverse attività. È stato progettato un framework multi-task basato su tag gerarchici per evitare problemi di interferenza derivanti dal co-addestramento. Qwen-Audio raggiunge prestazioni impressionanti in diverse attività di riferimento senza un adattamento specifico per ogni attività. Qwen-Audio-Chat, basato su Qwen-Audio, supporta dialoghi multi-turno e scenari audio centrali diversi, dimostrando le sue abilità di comprensione universale dell’audio.

Qwen-Audio supera le limitazioni dei modelli audio-linguistici precedenti gestendo diversi tipi e attività audio. A differenza dei lavori precedenti solo sulla voce, Qwen-Audio incorpora la voce umana, i suoni naturali, la musica e le canzoni, consentendo il co-addestramento su dataset con granularità variabile. Il modello eccelle nelle attività di percezione e riconoscimento della voce senza modifiche specifiche per ogni attività. Qwen-Audio-Chat estende queste capacità allineandole all’intento umano, supportando dialoghi multi-turno multilingue da input audio e testuali, mostrando una comprensione audio robusta e completa.

Le LLM eccellono nell’intelligenza artificiale generale ma mancano di comprensione audio. Qwen-Audio risolve questo problema scalando il pre-addestramento per coprire 30 attività e diversi tipi audio. Un framework multi-task mitiga l’interferenza, consentendo la condivisione di conoscenze. Qwen-Audio mostra prestazioni impressionanti in diverse attività di riferimento senza un adattamento specifico per ogni attività. Qwen-Audio-Chat, un’estensione, supporta dialoghi multi-turno e scenari audio-centrici diversi, mostrando capacità di interazione audio completa in LLM.

Qwen-Audio e Qwen-Audio-Chat sono modelli per la comprensione universale dell’audio e l’interazione umana flessibile. Qwen-Audio adotta un approccio di pre-addestramento multi-task, ottimizzando l’encoder audio mentre si fissano i pesi del modello linguistico. Al contrario, Qwen-Audio-Chat utilizza un addestramento supervisionato di affinamento, ottimizzando il modello linguistico mentre si fissano i pesi dell’encoder audio. Il processo di addestramento include il pre-addestramento multi-task e l’affinamento supervisionato. Qwen-Audio-Chat consente un’interazione umana versatile, supportando dialoghi multi-turno multilingue da input audio e testuali, mostrando la sua adattabilità e comprensione audio completa.

Qwen-Audio mostra prestazioni notevoli in diverse attività di riferimento, superando controparti senza un adattamento specifico per ogni attività. Supera costantemente le baselines con un ampio margine in lavori come AAC, SWRT ASC, SER, AQA, VSC e MNA. Il modello stabilisce risultati di state-of-the-art in CochlScene, ClothoAQA e VocalSound, mostrando capacità di comprensione audio robuste. La superiorità delle prestazioni di Qwen-Audio in diverse analisi evidenzia la sua efficacia e competenza nel raggiungimento di risultati di state-of-the-art in complesse attività audio.

La serie Qwen-Audio introduce modelli audio-linguistici su larga scala con una comprensione universale di diversi tipi e attività audio. Sviluppati attraverso un framework di addestramento multi-task, questi modelli facilitano la condivisione di conoscenze e superano l’interferenza proveniente da etichette testuali variabili in diversi dataset. Raggiungendo prestazioni impressionanti in diverse attività di riferimento senza un adattamento specifico per ogni attività, Qwen-Audio supera i lavori precedenti. Qwen-Audio-Chat estende queste capacità, consentendo dialoghi multi-turno e supportando scenari audio diversi, mostrando un’allineamento robusto con l’intento umano e facilitando interazioni multilingue.

L’esplorazione futura di Qwen-Audio include l’ampliamento delle capacità per diversi tipi audio, lingue e attività specifiche. Il miglioramento del framework multi-task o l’esplorazione di approcci alternativi di condivisione delle conoscenze potrebbero risolvere i problemi di interferenza nel co-addestramento. L’indagine dell’affinamento specifico per ogni attività può migliorare le prestazioni. Aggiornamenti continui basati su nuovi benchmark, dataset e feedback degli utenti mirano a migliorare la comprensione audio universale. Qwen-Audio-Chat viene perfezionato per allinearsi all’intento umano, supportare interazioni multilingue e consentire dialoghi multi-turno dinamici.