Incontra LLM-Blender un nuovo framework di ensembling per ottenere prestazioni costantemente superiori sfruttando le diverse capacità di più modelli di linguaggio open-source di grandi dimensioni (LLM).

LLM-Blender nuovo framework di ensembling con più modelli di linguaggio open-source per prestazioni superiori.

I modelli di linguaggio di grandi dimensioni hanno mostrato una notevole performance in una vastissima gamma di attività. Dalla produzione di contenuti unici e creativi e dall’interrogazione delle risposte alla traduzione di lingue e alla sintesi di paragrafi di testo, i LLM sono stati in grado di imitare gli esseri umani con successo. Alcuni noti LLM come GPT, BERT e PaLM sono stati in prima pagina per il loro preciso seguire le istruzioni e l’accesso a grandi quantità di dati di alta qualità. Modelli come GPT4 e PaLM non sono open source, il che impedisce a chiunque di comprendere le loro architetture e i dati di formazione. D’altra parte, la natura open source di LLM come Pythia, LLaMA e Flan-T5 offre ai ricercatori l’opportunità di perfezionare e migliorare i modelli su set di istruzioni personalizzati. Ciò consente lo sviluppo di LLM più piccoli ed efficienti come Alpaca, Vicuna, OpenAssistant e MPT.

Non esiste un singolo LLM open source che guidi il mercato e i migliori LLM per vari esempi possono differire notevolmente l’uno dall’altro. Pertanto, al fine di produrre continuamente risposte migliorate per ogni input, è essenziale ensembllare dinamicamente questi LLM. I pregiudizi, gli errori e le incertezze possono essere ridotti integrando i contributi distintivi di vari LLM, ottenendo così risultati che si avvicinano maggiormente alle preferenze umane. Per affrontare questo problema, i ricercatori dell’Allen Institute for Artificial Intelligence, dell’Università della California del Sud e dell’Università di Zhejiang hanno proposto LLM-BLENDER, un framework di ensemble che ottiene costantemente una prestazione superiore utilizzando i molti vantaggi di diversi grandi modelli di linguaggio open-source.

LLM-BLENDER è composto da due moduli – PAIRRANKER e GENFUSER. Questi moduli mostrano che il LLM ottimale per diversi esempi può variare notevolmente. PAIRRANKER, il primo modulo, è stato sviluppato per identificare variazioni minime tra le possibili uscite. Utilizza una tecnica avanzata di confronto a coppie in cui il testo originale e due possibili uscite da vari LLM agiscono come input. Per codificare congiuntamente l’input e la coppia di candidati, utilizza encoder a cross-attenzione come RoBERTa, dove la qualità dei due candidati può essere determinata da PAIRRANKER utilizzando questa codifica.

Il secondo modulo, GENFUSER, si concentra sulla fusione dei candidati classificati al top per generare un’uscita migliorata. Sfrutta al massimo i vantaggi dei candidati scelti minimizzando i loro svantaggi. GENFUSER mira a sviluppare un’uscita superiore all’uscita di qualsiasi LLM unendo le uscite di vari LLM.

Per la valutazione, il team ha fornito un dataset di benchmark chiamato MixInstruct, che incorpora confronti Oracle a coppie e combina vari dataset di istruzioni. Questo dataset utilizza 11 popolari LLM open source per generare molteplici candidati per ogni input in diverse attività di seguimento delle istruzioni. Comprende esempi di formazione, di validazione e di test con confronti Oracle per la valutazione automatica. Questi confronti Oracle sono stati utilizzati per dare ai candidati un ranking di verità fondamentale, consentendo di valutare le prestazioni di LLM-BLENDER e di altre tecniche di benchmark.

I risultati sperimentali hanno mostrato che LLM-BLENDER ha prestazioni nettamente superiori su una vasta gamma di parametri di valutazione rispetto ai singoli LLM e alle tecniche di base. Stabilisce un ampio gap di prestazioni e dimostra che l’impiego della metodologia di ensemble di LLM-BLENDER porta ad un output di migliore qualità rispetto all’utilizzo di un singolo LLM o di un metodo di base. Le selezioni di PAIRRANKER hanno superato i modelli LLM individuali grazie alla loro migliore prestazione in metriche basate su riferimenti e su GPT-Rank. Attraverso una fusione efficiente, GENFUSER migliora significativamente la qualità della risposta utilizzando le migliori scelte di PAIRRANKER.

LLM-BLENDER ha anche superato i LLM individuali, come Vicuna, dimostrando così un grande potenziale per migliorare l’implementazione e la ricerca di LLM attraverso l’apprendimento ensemble.