Ricercatori cinesi propongono ALCUNA una rivoluzionaria base di valutazione dell’intelligenza artificiale per valutare modelli di linguaggio su larga scala sull’integrazione di nuove conoscenze

Ricercatori cinesi propongono una RIVOLUZIONARIA base di valutazione dell'intelligenza artificiale per l'analisi di modelli di linguaggio su larga scala con l'integrazione di nuove conoscenze

Valutare i modelli di linguaggio su larga scala (LLM) nella gestione delle nuove conoscenze è una sfida. I ricercatori dell’Università di Pechino hanno introdotto KnowGen, un metodo per generare nuove conoscenze modificando attributi e relazioni di entità esistenti. Un benchmark chiamato ALCUNA valuta le capacità dei LLM nella comprensione e differenziazione delle conoscenze. Lo studio dimostra che i LLM spesso faticano a ragionare sulla distinzione tra conoscenza nuova e interna. Evidenzia l’importanza della cautela nell’applicare i LLM a nuovi scenari e incoraggia lo sviluppo dei LLM nella gestione delle nuove conoscenze.

LLM come FLAN-T5, GPT-3, OPT, LLama e GPT-4 hanno eccelso in vari compiti di linguaggio naturale con applicazioni in prodotti commerciali. I benchmark esistenti valutano le loro prestazioni ma si basano sulle conoscenze esistenti. I ricercatori propongono Know-Gen e il benchmark ALCUNA per valutare i LLM nella gestione delle nuove conoscenze. Sottolinea la necessità di cautela nell’utilizzo dei LLM con nuovi scenari o competenze e mira a stimolare lo sviluppo in questo contesto.

I LLM hanno eccelso in vari compiti, ma i benchmark esistenti potrebbero dover valutare la loro capacità di gestire nuove conoscenze. Sono proposti nuovi standard per colmare questa lacuna. La valutazione delle prestazioni dei LLM con nuove conoscenze è cruciale a causa dell’evoluzione delle informazioni. L’uso sovrapposto di dati di addestramento e di prova può influire sulla valutazione della memoria. Costruire un nuovo benchmark di conoscenza è una sfida ma necessario.

Know-Gen è un metodo per generare nuove conoscenze modificando gli attributi e le relazioni delle entità. Valuta i LLM utilizzando metodi a zero-shot e few-shot, con e senza forme di ragionamento Chain-of-Thought. Lo studio esplora l’impatto della similarità artificiale delle entità rispetto alle entità principali, valutando la similarità degli attributi e dei nomi. Più LLM sono valutati su questi benchmark, tra cui ChatGPT, Alpaca-7B, Vicuna-13B e ChatGLM-6B.

Le prestazioni dei LLM nel benchmark ALCUNA, che valuta la loro gestione delle nuove conoscenze, potrebbero essere migliori, soprattutto nel ragionare tra conoscenza nuova e esistente. ChatGPT è il migliore, con Vicuna come secondo miglior modello. L’impostazione few-shot in generale ottiene risultati migliori rispetto a quella zero-shot, e la forma di ragionamento CoT è superiore. I LLM faticano maggiormente con l’associazione delle conoscenze e il ragionamento a più step. La similarità delle entità influisce sulla loro comprensione. Il loro metodo enfatizza l’importanza di valutare i LLM sulle nuove conoscenze e propone i benchmark Know-Gen e ALCUNA per favorire il progresso in questo ambito.

Il metodo proposto è limitato ai dati biologici ma ha potenziali applicazioni in altri ambiti che aderiscono alla rappresentazione ontologica. La valutazione è limitata a pochi modelli di LLM a causa dei modelli con sorgenti chiuse e della scala, che richiede una valutazione con una gamma più ampia di modelli. Sottolinea la gestione delle nuove conoscenze da parte dei LLM ma manca di un’analisi approfondita delle limitazioni dei benchmark attuali. Non affronta neanche potenziali pregiudizi o implicazioni etiche legate alla generazione di nuove conoscenze utilizzando l’approccio Know-Gen o all’uso responsabile dei LLM nei contesti delle nuove conoscenze.

KnowGen e il benchmark ALCUNA possono aiutare a valutare i LLM nella gestione delle nuove conoscenze. Mentre ChatGPT ottiene i migliori risultati e Vicuna è il secondo miglior modello, le prestazioni dei LLM nel ragionamento tra conoscenze nuove ed esistenti potrebbero essere migliori. Le impostazioni few-shot ottengono risultati migliori rispetto a quelle zero-shot e il ragionamento CoT è superiore. I LLM hanno difficoltà nell’associazione delle conoscenze, sottolineando la necessità di ulteriori sviluppi. Si richiede cautela nell’uso dei LLM nelle nuove conoscenze e si prevede che questi benchmark favoriranno lo sviluppo dei LLM in questo contesto.