Questo articolo sull’intelligenza artificiale presenta un nuovo processo di distillazione personalizzato migliorare i LLM open-source con l’apprendimento adattivo dai corrispondenti closed-source

Un nuovo processo personalizzato di distillazione dell'intelligenza artificiale per migliorare i LLM open-source con apprendimento adattivo dai corrispondenti closed-source

Ricercatori dell’Università Tecnologica di Nanyang, Singapore, e Salesforce Research presentano un processo di distillazione personalizzato per compiti di generazione di codice che coinvolge un tentativo iniziale di risoluzione del compito da parte di un modello studente seguito da un perfezionamento adattivo da parte di un modello insegnante. L’approccio supera i metodi standard di distillazione, offrendo risultati superiori con solo un terzo dei dati. La distillazione personalizzata viene testata su due modelli di generazione di codice, CodeGen-mono-16B e StarCoder, portando a miglioramenti significativi nelle valutazioni di HumanEval.

Lo studio introduce la distillazione personalizzata per compiti di generazione di codice, un approccio innovativo ispirato ai principi di insegnamento moderni. In questo processo, il modello studente tenta inizialmente il compito, ricevendo un perfezionamento adattivo dal modello insegnante. La distillazione personalizzata supera costantemente i metodi standard, ottenendo risultati migliori con solo un terzo dei dati. Studi empirici confermano l’efficacia delle etichette personalizzate per l’apprendimento degli studenti. L’approccio migliora significativamente le prestazioni dei modelli preaddestrati open-source, inclusi CodeGen-mono-16B e StarCoder, nei compiti di generazione di codice.

Il metodo affronta le limitazioni dei grandi modelli di linguaggio (LLM) closed-source come ChatGPT e GPT-4 riguardanti disponibilità, costo, etica e problematiche di privacy dei dati. Propone la distillazione personalizzata per compiti di generazione di codice ispirata ai principi di apprendimento personalizzato. L’approccio prevede che il modello studente svolga i compiti, riceva feedback sull’esecuzione e si perfezioni con l’orientamento del modello insegnante. La distillazione personalizzata supera i metodi standard, ottenendo risultati superiori con meno esempi di dati, offrendo una soluzione per estrarre le capacità dei LLM closed-source in modelli open-source più piccoli.

Lo studio ha confrontato la distillazione standard (STAND) con due approcci: la distillazione personalizzata (PERsD), in cui lo studente inizialmente svolge un compito e riceve feedback personalizzati dall’insegnante, e la distillazione personalizzata dell’input (INPD), in cui solo i compiti di input sono personalizzati. I dati sono stati raccolti dai compiti code-alpaca e seed di MBPP per il preaddestramento. Le prestazioni sono state valutate utilizzando metriche come pass@1 e HumanEval per valutare l’efficacia dei metodi.

PERsD ha costantemente superato i metodi standard di distillazione come INPD e STAND nei compiti di generazione di codice, ottenendo miglioramenti significativi con solo un terzo dei dati. Anche con tre volte meno dati, PERsD ha superato STAND in 15 su 16 configurazioni, dimostrando l’efficienza dei dati etichettati personalizzati. L’inferenza a più passaggi ha migliorato la qualità delle risposte nei modelli PERsD-refine e PERsD-combine, mostrando la loro capacità di perfezionare le soluzioni basate sul feedback degli errori di esecuzione. Mescolare etichette non personalizzate con etichette personalizzate ha generalmente un impatto negativo, sottolineando la maggiore qualità delle etichette personalizzate.

PERsD ha introdotto un metodo per personalizzare i dati etichettati in base alla capacità del modello studente, ottenendo un apprendimento più efficace. PERsD ha superato la distillazione standard nella generazione di codice su HumanEval e dataset MBPP, beneficiando di una maggiore qualità dei dati, di distillazione a più giri e di autorettificazione tramite feedback sull’esecuzione. Le varianti di PERsD hanno costantemente superato le versioni non personalizzate, evidenziando l’efficacia delle etichette personalizzate. L’approccio rappresenta un progresso promettente nella distillazione delle capacità dei LLM closed-source in modelli open-source.

Investigare la distillazione personalizzata online per raccogliere dati in modo dinamico durante il fine-tuning, migliorando potenzialmente i modelli studente. Esplorare metodi scalabili per la distillazione personalizzata che non dipendano dall’annotazione umana, affrontando limitazioni come l’impatto della mescolanza di etichette personalizzate e non personalizzate. Estendere la distillazione personalizzata ad altri settori per valutarne l’efficacia. Inoltre, considerare di utilizzarla per distillare le capacità dei LLM closed-source in modelli open-source, avanzando ulteriormente la distillazione dei modelli.