Ricercatori dell’USC e di Microsoft propongono UniversalNER un nuovo modello di intelligenza artificiale addestrato con distillazione mirata che riconosce oltre 13.000 tipi di entità e supera l’accuratezza NER di ChatGPT del 9% F1 su 43 set di dati.

I ricercatori dell'USC e di Microsoft hanno sviluppato UniversalNER, un nuovo modello di intelligenza artificiale addestrato con distillazione mirata. Questo modello è in grado di riconoscere oltre 13.000 tipi di entità e supera l'accuratezza NER di ChatGPT del 9% F1 su 43 set di dati.

ChatGPT e altri modelli di linguaggio di grandi dimensioni (LLM) hanno dimostrato impressionanti capacità di generalizzazione, ma i loro costi di addestramento e inferenza sono spesso proibitivi. Inoltre, l’accesso white-box ai pesi del modello e alle probabilità di inferenza è spesso cruciale per spiegabilità e fiducia nelle applicazioni mission-critical come l’assistenza sanitaria. Di conseguenza, l’ottimizzazione delle istruzioni ha guadagnato popolarità come metodo per condensare i LLM in modelli studenti più accessibili e trasparenti. Questi modelli studenti hanno dimostrato abilità convincenti nel mimare ChatGPT, come Alpaca e Vicuna hanno dimostrato. Un’attenta esame rivela che devono ancora recuperare rispetto all’LLM ideale, in particolare nelle applicazioni downstream specificamente mirate.

A causa delle risorse di calcolo limitate disponibili, una distillazione generica può solo creare un’approssimazione superficiale dell’LLM originale per tutte le possibili applicazioni. Invece, in questa ricerca si investiga la distillazione mirata, in cui si addestrano modelli studenti attraverso l’ottimizzazione delle istruzioni focalizzate sulla missione per una classe di applicazioni diverse come l’estrazione di informazioni aperte. Si dimostra che, mantenendo la sua generalizzabilità attraverso tipi e domini semantici, questo può riprodurre al massimo le capacità dell’LLM per la classe di applicazioni specificata. Poiché il riconoscimento delle entità nominate (NER) è uno dei problemi più fondamentali nell’elaborazione del linguaggio naturale, lo hanno scelto come caso di studio. Ricerche recenti dimostrano che gli LLM devono ancora recuperare rispetto al sistema supervisionato più avanzato per un tipo di entità quando ci sono molte istanze annotate.

Tuttavia, per la maggior parte dei tipi di oggetti, è necessaria una quantità di annotazioni ridotta. Lo sviluppo di esempi annotati è costoso e richiede molto tempo, soprattutto in settori ad alto valore come la biologia, dove l’annotazione richiede conoscenze specializzate. Continuano a emergere nuovi tipi di entità. I modelli NER supervisionati mostrano anche una scarsa generalizzabilità per nuovi domini e tipi di entità, poiché vengono addestrati su tipi di entità e domini predefiniti. Illustrano un processo generico per la distillazione mirata degli LLM e mostrano come l’NER di dominio aperto possa utilizzarlo. Ricercatori dell’Università della California del Sud e Microsoft Research dimostrano come utilizzare ChatGPT per creare dati di ottimizzazione delle istruzioni per NER da grandi quantità di testo online non etichettato e utilizzare LLaMA per creare i modelli UniversalNER (abbreviato UniNER).

Creano la più grande e variegata prova del NER finora (prova UniversalNER), composta da 43 set di dati provenienti da 9 diverse discipline, tra cui medicina, programmazione, social media, legge e finanza. LLaMA e Alpaca ottengono punteggi bassi su questa prova (circa 0 F1) per il NER zero-shot. Vicuna ha prestazioni significativamente migliori in confronto, ma in media F1 è ancora di oltre 20 punti assoluti dietro ChatGPT. In contrasto, UniversalNER supera Vicuna di oltre 30 punti assoluti in media F1 e raggiunge una precisione NER all’avanguardia su decine di migliaia di tipi di entità nella prova UniversalNER. Oltre a replicare la capacità di ChatGPT di riconoscere qualsiasi entità con un numero ridotto di parametri (7-13 miliardi), UniversalNER supera anche la sua precisione NER di 7-9 punti assoluti in media F1.

Sorprendentemente, UniversalNER supera nettamente i sistemi multi-task ottimizzati per le istruzioni più avanzati come InstructUIE, che utilizza istanze NER supervisionate. Effettuano anche ampi test di ablazione per valutare gli effetti dei diversi componenti di distillazione come le istruzioni e il campionamento negativo. Forniranno la loro ricetta di distillazione, i dati e il modello UniversalNER e presenteranno una demo interattiva per aiutare ulteriori studi sulla distillazione mirata.