Ricercatori di Alibaba propongono INSTAG un Tagger a grana fine ad apertura che sfrutta la capacità di seguire le istruzioni dei moderni chatbot come ChatGPT.

Gli esperti di Alibaba propongono INSTAG, un Tagger a grana fine che sfrutta la capacità dei chatbot moderni come ChatGPT di seguire le istruzioni.

Hai mai considerato come i grandi modelli di linguaggio come ChatGPT acquisiscano la capacità di seguire le istruzioni? Vari modelli di linguaggio di base la ottengono tramite un affinamento supervisionato (SFT). Il fattore critico per il successo del SFT è la diversità e la complessità dei dataset. La loro analisi qualitativa e le definizioni devono essere più chiare.

I ricercatori di Alibaba DAMO Academy propongono un tagger aperto e raffinato chiamato “InsTag” per etichettare campioni all’interno del dataset SFT in base alla semantica e alle intenzioni per definire la diversità e la complessità delle istruzioni relative ai compiti. Affermano che la capacità del modello cresce con dati più complessi e diversificati.

I ricercatori propongono anche un selettore di dati basato su InsTag per selezionare 6.000 campioni diversi e complessi da dataset open-source e affinare i modelli sui dati selezionati da InsTag. Affermano che un’ampia gamma di dati di addestramento che copre varie semantica e specialità è cruciale per LLM ben allineati alle aspettative umane che possano riconoscere precisamente le intenzioni umane e formalizzare correttamente le risposte in linguaggi naturali.

InsTag è un metodo automatico di etichettatura delle istruzioni potenziato dal chatbot ad alte prestazioni ChatGPT. È un framework che sollecita automaticamente ChatGPT a assegnare etichette alle query. ChatGPT utilizza una tecnica di normalizzazione delle etichette sistematica per spiegare ciascuna etichetta assegnata. Quando InsTag viene applicato a dataset open-source esistenti, vengono creati tag addestrati in modo aperto e dettagliati, che vengono successivamente analizzati per ottenere distribuzioni basate sulla complessità e diversità. LLM affinati con i dati selezionati dal selettore InsTag ottengono migliori risultati sulla MIT-Benchmark.

Nel tentativo di generare etichette di intenzione utilizzando ChatGPT, i ricercatori hanno identificato tre tipi di rumore. A causa dell’instabilità di ChatGPT nel rispettare le istruzioni sul formato di output, è stato prodotto rumore lessicale. Le etichette eccessivamente specifiche creano una granularità non controllata, generando rumore. Alcune etichette sono spesso apparse insieme a causa del pregiudizio di ChatGPT e hanno portato a correlazioni spurie.

Per risolvere questi problemi, normalizzano i risultati dell’etichettatura a insiemi aperti utilizzando vari aspetti come formato, semantica e associazioni. Inizialmente filtrano le etichette a lunga coda che compaiono meno di un determinato parametro (chiamato iperparametro, che è correlato alla scala del dataset). Tutte le etichette vengono trasformate in caratteri minuscoli per evitare l’influenza delle lettere maiuscole. Infine, applicano la tecnica di stemming a ciascuna etichetta. Lo stemming è una tecnica utilizzata per estrarre la forma di base delle parole rimuovendo gli affissi da esse.

I ricercatori hanno scelto la versione 13B di LLaMA per l’affinamento e altri LLM simili per il confronto. I risultati mostrano che i loro modelli superano tutti gli LLM allineati open-source ottenendo un punteggio medio di 6,44 sulla MIT-Bench.

In sintesi, i ricercatori sostengono che il loro InsTag proposto fornisce un aspetto innovativo per una comprensione più approfondita della distribuzione delle query nell’allineamento degli LLM. Ha un potenziale robusto per essere esteso a più applicazioni oltre alla selezione dei dati, come valutazioni complete e autoistruzione basata su etichette.