Ricercatori di Meta e UNC-Chapel Hill presentano Branch-Solve-Merge un programma rivoluzionario che migliora le performance di modelli di grandi dimensioni in compiti complessi di linguaggio.

Ricercatori di Meta e UNC-Chapel Hill presentano Branch-Solve-Merge un programma rivoluzionario per ampliare le performance dei modelli di grandi dimensioni nei compiti complessi di linguaggio.

BRANCH-SOLVE-MERGE (BSM) è un programma per potenziare i modelli di linguaggio estesi (LLM) in complesse attività di linguaggio naturale. BSM comprende moduli di branching, solving e merging per pianificare, risolvere e combinare sotto-attività. Applicato all’evaluazione della risposta LLM e alla generazione di testo vincolata con modelli come Vicuna, LLaMA-2-chat e GPT-4, BSM migliora l’accordo umano-LLM, riduce i pregiudizi e consente a LLaMA-2-chat di eguagliare o superare GPT-4 nella maggior parte dei domini. Aumenta inoltre la coerenza e la soddisfazione delle storie nella generazione di storie vincolate.

I LLM eccellono in complesse attività di linguaggio multifacetate ma spesso hanno bisogno di aiuto per la complessità. BSM, un programma LLM, suddivide i compiti in passaggi e parametrizza ciascuno con prompt distinti. È un’evoluzione rispetto agli approcci sequenziali precedenti, mirando a compiti come l’evaluazione LLM e la generazione di testo vincolata che traggono vantaggio dalla decomposizione parallela. Il processo offre una soluzione preziosa per valutare i LLM in complessi compiti di generazione di testo, in particolare in scenari basati sulla pianificazione e vincolati, affrontando la necessità di una valutazione olistica.

I LLM eccellono nella generazione di testo ma hanno bisogno di aiuto per compiti complessi e multi-obiettivo. Ricercatori dell’UNC-Chapel Hill e di Meta hanno introdotto BSM, un metodo per affrontare tali sfide. BSM suddivide i compiti in sotto-compiti paralleli utilizzando moduli di branch, solve e merge. Applicato all’evaluazione delle risposte LLM e alla generazione di testo vincolata, BSM migliora correttezza, coerenza e soddisfazione dei vincoli in questi compiti, beneficiando vari LLM come LLaMA-2-chat, Vicuna e GPT-4. Offre una soluzione promettente per migliorare le prestazioni dei LLM in compiti linguistici complessi.

BSM suddivide complessi compiti di linguaggio in tre moduli: branch, solve e merge. Applicato all’evaluazione delle risposte LLM e alla generazione di testo vincolata, BSM migliora la correttezza, la coerenza e riduce i pregiudizi. Migliora l’accordo umano-LLM fino al 26% e aumenta la soddisfazione dei vincoli del 12%. BSM è un approccio versatile basato sulla decomposizione che può essere applicato a vari LLM, rendendolo promettente per migliorare la valutazione dei LLM su diversi compiti e scale.

BSM migliora l’accordo LLM-umano, ottenendo un miglioramento del 12% per LLaMA-2-70B-chat nelle domande di turno-1 e turno-2. Supera Self-Consistency e riduce i pregiudizi del 34% in posizione e lunghezza. BSM consente a modelli open-source più deboli come LLaMA-2 di competere con GPT-4. Le prestazioni di BSM si estendono a diversi domini, eguagliando o avvicinandosi a GPT-4 in diverse categorie, migliorando i punteggi di accordo e riducendo i pregiudizi. Eccelle anche nella valutazione di domande basate su riferimenti, superando LLaMA-2-70B-chat e GPT-4 in classi come Matematica, migliorando i punteggi di accordo e mitigando il pregiudizio di posizione.

Il metodo BSM affronta le sfide critiche nella valutazione di LLM e nella generazione di testo, migliorando la coerenza, la pianificazione e la decomposizione dei compiti. I moduli di branching, solving e merging di BSM migliorano l’evaluazione della risposta LLM e la generazione di testo vincolata, portando a una maggiore correttezza, coerenza e accordo umano-LLM. BSM mitiga anche i pregiudizi, migliora la coerenza delle storie e aumenta la soddisfazione dei vincoli. Si rivela efficace su diversi LLM e domini, superando anche GPT-4 in varie categorie. BSM è un approccio versatile e promettente per migliorare le prestazi

Se ti piace il nostro lavoro, amerai la nostra newsletter..

Siamo anche su Telegram e WhatsApp.

L’articolo Ricercatori di Meta e UNC-Chapel Hill introducono Branch-Solve-Merge: un programma rivoluzionario per migliorare le prestazioni dei modelli di linguaggio nelle complesse attività linguistiche è apparso per la prima volta su MarkTechPost.

AI Paper Summary,AI Shorts,Applications,artificial intelligence,Editors Pick

Ricercatori di Meta e UNC-Chapel Hill presentano Branch-Solve-Merge un programma rivoluzionario che migliora le performance di modelli di grandi dimensioni in compiti complessi di linguaggio.

Ricercatori di Meta e UNC-Chapel Hill presentano Branch-Solve-Merge un programma rivoluzionario per ampliare le performance dei modelli di grandi dimensioni nei compiti complessi di linguaggio.

Quali sono le funzioni di Microsoft Azure?

La necessità urgente delle competenze GenAI nella gestione dei progetti

Una guida completa per creare un assistente...

Principiante a Ninja Perché le tue competen...

Introduzione a NExT-GPT Modello di Linguagg...

ChatGPT Plus libera entusiasmanti nuove fun...

Vale la pena l’AI generativa, conside...

ConvNet sta facendo un ritorno? Svelando le...

AI