Incontra LP-MusicCaps un approccio di generazione di didascalie pseudo a partire dai tag utilizzando modelli di linguaggio di grandi dimensioni per affrontare il problema della scarsità di dati nell’indicazione automatica delle musiche.

Incontra LP-MusicCaps un approccio di generazione di didascalie pseudo basato su tag e modelli di linguaggio di grandi dimensioni per affrontare la scarsità di dati nella descrizione automatica delle musiche.

La generazione di didascalie musicali coinvolge il recupero delle informazioni musicali mediante la generazione di descrizioni in linguaggio naturale di una traccia musicale data. Le didascalie generate sono descrizioni testuali di frasi, distinguendo il compito da altre attività di comprensione semantica della musica come l’etichettatura musicale. Questi modelli utilizzano generalmente un framework codificatore-decodificatore.

C’è stato un aumento significativo della ricerca sulla generazione di didascalie musicali. Ma nonostante la sua importanza, i ricercatori che studiano queste tecniche si trovano di fronte ad ostacoli dovuti al costo e alla complessità della raccolta dei dati. Inoltre, il numero limitato di set di dati disponibili per musica-lingua rappresenta una sfida. Con la scarsità di set di dati, diventa difficile addestrare con successo un modello di didascalia musicale. I grandi modelli di linguaggio (LLM) potrebbero essere una soluzione potenziale per la generazione di didascalie musicali. I LLM sono modelli all’avanguardia con oltre un miliardo di parametri e dimostrano impressionanti capacità nel gestire compiti con pochi o zero esempi. Questi modelli vengono addestrati su una vasta quantità di dati di testo provenienti da fonti diverse come Wikipedia, GitHub, registri di chat, articoli medici, articoli di legge, libri e pagine web scaricate da Internet. L’addestramento approfondito consente loro di comprendere e interpretare le parole in vari contesti e domini.

Successivamente, un team di ricercatori della Corea del Sud ha sviluppato un metodo chiamato LP-MusicCaps (Large language-based Pseudo music caption dataset), creando un set di dati di didascalie musicali applicando attentamente i LLM ai set di dati di etichettatura. Hanno condotto una valutazione sistematica del set di dati di didascalie musicali su larga scala con vari indicatori di valutazione quantitativa utilizzati nel campo dell’elaborazione del linguaggio naturale, nonché una valutazione umana. Ciò ha portato alla generazione di circa 2,2 milioni di didascalie abbinate a 0,5 milioni di clip audio. Prima, hanno proposto un approccio basato su LLM per generare un set di dati di didascalie musicali, LP-MusicCaps. Secondo, hanno proposto uno schema di valutazione sistematica per le didascalie musicali generate da LLM. Terzo, hanno dimostrato che i modelli addestrati su LP-MusicCaps si comportano bene sia in scenari di apprendimento senza supervisione che di trasferimento, giustificando l’uso di didascalie musicali pseudo-basate su LLM.

I ricercatori hanno iniziato raccogliendo etichette multi-tag dai set di dati di etichettatura musicale esistenti. Queste etichette comprendono vari aspetti della musica, come il genere, l’umore, gli strumenti e altro ancora. Hanno costruito attentamente istruzioni di attività per generare frasi descrittive per le tracce musicali, che hanno funzionato come input (prompt) per un grande modello di linguaggio. Hanno scelto il potente modello di linguaggio GPT-3.5 Turbo per eseguire la generazione di didascalie musicali grazie alle sue eccezionali prestazioni in diverse attività. Il processo di addestramento di GPT-3.5 Turbo ha coinvolto una fase iniziale con un vasto corpus di dati e ha beneficiato di una potenza di calcolo immensa. Successivamente, hanno effettuato un fine-tuning utilizzando il reinforcement learning con il feedback umano. Questo processo di fine-tuning mirava a migliorare la capacità del modello di interagire in modo efficace con le istruzioni.

I ricercatori hanno confrontato questo generatore di didascalie basato su LLM con metodi basati su modelli di template (concatenazione di tag, template di prompt) e l’aumento K2C. Nel caso dell’aumento K2C, quando l’istruzione è assente, il tag di input viene omesso dalla didascalia generata, risultando in una frase che potrebbe non essere correlata alla descrizione della canzone. D’altra parte, il modello basato su template mostra prestazioni migliorate perché beneficia del contesto musicale presente nel template.

Hanno utilizzato la metrica BERT-Score per valutare la diversità delle didascalie generate. Questo framework ha dimostrato valori di BERT-Score più elevati, generando didascalie con vocabolari più diversificati. Ciò significa che le didascalie prodotte da questo metodo offrono una gamma più ampia di espressioni e variazioni linguistiche, rendendole più coinvolgenti e ricche di contesto.

Mentre i ricercatori continuano a perfezionare e migliorare il loro approccio, guardano anche avanti per sfruttare il potere dei modelli di linguaggio per avanzare nella generazione di didascalie musicali e contribuire al recupero delle informazioni musicali.