Ricercatori di Meta e UNC-Chapel Hill presentano Branch-Solve-Merge un programma rivoluzionario che migliora le performance di modelli di grandi dimensioni in compiti complessi di linguaggio.

Ricercatori di Meta e UNC-Chapel Hill presentano Branch-Solve-Merge un programma rivoluzionario per ampliare le performance dei modelli di grandi dimensioni nei compiti complessi di linguaggio.

BRANCH-SOLVE-MERGE (BSM) è un programma per potenziare i modelli di linguaggio estesi (LLM) in complesse attività di linguaggio naturale. BSM comprende moduli di branching, solving e merging per pianificare, risolvere e combinare sotto-attività. Applicato all’evaluazione della risposta LLM e alla generazione di testo vincolata con modelli come Vicuna, LLaMA-2-chat e GPT-4, BSM migliora l’accordo umano-LLM, riduce i pregiudizi e consente a LLaMA-2-chat di eguagliare o superare GPT-4 nella maggior parte dei domini. Aumenta inoltre la coerenza e la soddisfazione delle storie nella generazione di storie vincolate.

I LLM eccellono in complesse attività di linguaggio multifacetate ma spesso hanno bisogno di aiuto per la complessità. BSM, un programma LLM, suddivide i compiti in passaggi e parametrizza ciascuno con prompt distinti. È un’evoluzione rispetto agli approcci sequenziali precedenti, mirando a compiti come l’evaluazione LLM e la generazione di testo vincolata che traggono vantaggio dalla decomposizione parallela. Il processo offre una soluzione preziosa per valutare i LLM in complessi compiti di generazione di testo, in particolare in scenari basati sulla pianificazione e vincolati, affrontando la necessità di una valutazione olistica.

I LLM eccellono nella generazione di testo ma hanno bisogno di aiuto per compiti complessi e multi-obiettivo. Ricercatori dell’UNC-Chapel Hill e di Meta hanno introdotto BSM, un metodo per affrontare tali sfide. BSM suddivide i compiti in sotto-compiti paralleli utilizzando moduli di branch, solve e merge. Applicato all’evaluazione delle risposte LLM e alla generazione di testo vincolata, BSM migliora correttezza, coerenza e soddisfazione dei vincoli in questi compiti, beneficiando vari LLM come LLaMA-2-chat, Vicuna e GPT-4. Offre una soluzione promettente per migliorare le prestazioni dei LLM in compiti linguistici complessi.

BSM suddivide complessi compiti di linguaggio in tre moduli: branch, solve e merge. Applicato all’evaluazione delle risposte LLM e alla generazione di testo vincolata, BSM migliora la correttezza, la coerenza e riduce i pregiudizi. Migliora l’accordo umano-LLM fino al 26% e aumenta la soddisfazione dei vincoli del 12%. BSM è un approccio versatile basato sulla decomposizione che può essere applicato a vari LLM, rendendolo promettente per migliorare la valutazione dei LLM su diversi compiti e scale.

BSM migliora l’accordo LLM-umano, ottenendo un miglioramento del 12% per LLaMA-2-70B-chat nelle domande di turno-1 e turno-2. Supera Self-Consistency e riduce i pregiudizi del 34% in posizione e lunghezza. BSM consente a modelli open-source più deboli come LLaMA-2 di competere con GPT-4. Le prestazioni di BSM si estendono a diversi domini, eguagliando o avvicinandosi a GPT-4 in diverse categorie, migliorando i punteggi di accordo e riducendo i pregiudizi. Eccelle anche nella valutazione di domande basate su riferimenti, superando LLaMA-2-70B-chat e GPT-4 in classi come Matematica, migliorando i punteggi di accordo e mitigando il pregiudizio di posizione.

Il metodo BSM affronta le sfide critiche nella valutazione di LLM e nella generazione di testo, migliorando la coerenza, la pianificazione e la decomposizione dei compiti. I moduli di branching, solving e merging di BSM migliorano l’evaluazione della risposta LLM e la generazione di testo vincolata, portando a una maggiore correttezza, coerenza e accordo umano-LLM. BSM mitiga anche i pregiudizi, migliora la coerenza delle storie e aumenta la soddisfazione dei vincoli. Si rivela efficace su diversi LLM e domini, superando anche GPT-4 in varie categorie. BSM è un approccio versatile e promettente per migliorare le prestazi

Se ti piace il nostro lavoro, amerai la nostra newsletter..

Siamo anche su Telegram e WhatsApp.

L’articolo Ricercatori di Meta e UNC-Chapel Hill introducono Branch-Solve-Merge: un programma rivoluzionario per migliorare le prestazioni dei modelli di linguaggio nelle complesse attività linguistiche è apparso per la prima volta su MarkTechPost.