Questo articolo AI propone ML-BENCH un nuovo approccio di intelligenza artificiale sviluppato per valutare l’efficacia di LLM nel sfruttare le funzioni esistenti nelle librerie open source.

ML-BENCH Un nuovo approccio di intelligenza artificiale per valutare l'efficacia di LLM

I modelli LLM vengono sempre più utilizzati come potenti agenti linguistici capaci di svolgere varie attività legate alla programmazione. Nonostante questi notevoli progressi, esiste ancora uno scarto considerevole tra le capacità dimostrate da questi modelli in contesti sperimentali statici e le mutevoli esigenze degli scenari di programmazione effettivi.

I benchmark per la generazione di codice standard testano quanto bene LLM sia in grado di generare nuovo codice da zero. Tuttavia, le convenzioni di programmazione raramente richiedono la creazione di tutti i componenti del codice da zero.

Nel momento in cui si scrive codice per applicazioni reali, è pratica comune utilizzare librerie esistenti e pubblicamente disponibili. Queste librerie sviluppate offrono risposte robuste e collaudate a varie sfide. Pertanto, il successo dei LLM per il codice dovrebbe essere valutato in modo più ampio rispetto alla semplice produzione di funzioni, come ad esempio la loro capacità di eseguire codice derivato da librerie open source con l’uso corretto dei parametri.

Uno studio condotto dall’Università di Yale, dall’Università di Nanjing e dall’Università di Pechino presenta ML-BENCH, un set di dati di benchmark realistico e completo per valutare le capacità dei LLM nella comprensione delle istruzioni degli utenti, nella navigazione dei repository GitHub e nella produzione di codice eseguibile. ML-BENCH mette a disposizione codice di alta qualità e cerificabile che soddisfa i requisiti delle istruzioni. Ci sono 9.444 esempi, tra 130 task e 14 repository GitHub di machine learning popolari che compongono ML-BENCH.

Gli studiosi utilizzano Pass@k e Parameter Hit Precision come metriche nelle loro indagini. Utilizzando questi strumenti, esplorano le possibilità di GPT-3.5-16k, GPT-4-32k, Claude 2 e CodeLlama in ambienti ML-BENCH. ML-BENCH suggerisce nuovi test per i LLM. I risultati empirici mostrano che i modelli GPT e Claude 2 superano CodeLlama di gran lunga. Sebbene GPT-4 mostri un aumento significativo delle prestazioni rispetto ad altri LLM, completa solo il 39,73% dei task negli esperimenti. Altri noti LLm mostrano allucinazioni e performance inferiori. I risultati suggeriscono che i LLM devono fare più che semplicemente scrivere codice; devono anche comprendere documentazione dettagliata. Il contributo tecnologico chiave è la proposta di ML-AGENT, un agente linguistico autonomo progettato per affrontare le carenze riscontrate attraverso l’analisi degli errori. Questi agenti sono in grado di comprendere il linguaggio umano e le istruzioni, generare codice efficiente e svolgere compiti complessi.

ML-Bench e ML-Agent rappresentano un notevole avanzamento nello stato dell’arte dei processi di machine learning automatizzati. Gli studiosi sperano che questo interessi altri ricercatori e professionisti.