Questo articolo sull’IA mostra una strada per creare grandi quantità di dati di istruzione con livelli di complessità variabili utilizzando LLM al posto degli esseri umani

Questo articolo sull'IA mostra come utilizzare LLM per generare grandi quantità di dati di istruzione con diversi livelli di complessità, al posto degli esseri umani.

I risultati dell’addestramento di LLM sui dati di istruzioni di dominio aperto sono fenomenali. Tuttavia, sviluppare manualmente questo tipo di dati di istruzione richiede tempo e sforzo. Inoltre, gli esseri umani potrebbero avere bisogno di aiuto per creare istruzioni altamente complesse. Molti recenti sforzi della comunità di elaborazione del linguaggio naturale (NLP) si sono concentrati nell’insegnare ai grandi modelli di linguaggio a comprendere meglio e seguire le istruzioni. Recentemente, la ricerca ha dimostrato che i LLM possono anche beneficiare di questa forma di insegnamento. Pertanto, questo tipo di dati viene ora utilizzato regolarmente per l’addestramento e il perfezionamento dei LLM nel dominio aperto.

Evol-Instruct è un metodo rivoluzionario che utilizza i LLM per creare grandi quantità di dati di istruzione di diversa complessità; è stato sviluppato da un team di ricercatori di Microsoft e dell’Università di Pechino. Le istruzioni prodotte utilizzando il modello WizardLM del team sono state valutate più positivamente nelle valutazioni umane rispetto a quelle dei dataset di istruzioni create dagli umani.

Ci sono tre fasi nel processo di Evol-Instruct:

  1. L’evoluzione dell’istruzione
  2. L’evoluzione della risposta basata sull’educazione appena sviluppata
  3. L’evoluzione dell’eliminazione

Per generare istruzioni più complesse da un’istruzione semplice, Evol-Instruct può eseguire Evoluzioni Approfondite (che coinvolgono una delle cinque operazioni: aggiunta di vincoli, approfondimento, concretizzazione, aumento dei passaggi di ragionamento e complicazione dell’input) o Evoluzioni in Ampiezza (che consiste nel creare una nuova istruzione basata sull’istruzione fornita). L’ultima fase, l’Evolvere dell’Eliminazione, funge da filtro per eliminare istruzioni errate.

I ricercatori hanno utilizzato Evol-Instruct per generare istruzioni di diversi gradi di complessità. Successivamente, hanno combinato tutti i dati di istruzioni prodotti per perfezionare un LLaMA LLM e sviluppare il loro modello WizardLM in uno studio empirico. WizardLM è stato valutato rispetto a strumenti standard del settore come ChatGPT, Alpaca e Vicuna.

Gli autori dello studio hanno concluso principalmente che:

  • Le istruzioni di Evol-Instruct superano quelle di ShareGPT, sviluppate dagli umani. Il modello WizardLM supera notevolmente Vicuna quando si perfeziona LLaMA 7B utilizzando la stessa quantità di dati Evol-Instruct (cioè 70k), con un tasso di successo che è superiore del 12,4% rispetto a Vicuna (41,3% vs 28,9%).
  • Quando vengono fornite istruzioni di test difficili, i valutatori sono più soddisfatti dei risultati di WizardLM rispetto a quelli di ChatGPT. WizardLM perde contro ChatGPT del 12,8% nel set di test, con un tasso di vittoria del 28,0% rispetto al 40,8% di ChatGPT. Tuttavia, WizardLM supera ChatGPT di 7,9 punti percentuali nella parte ad alta difficoltà del set di test (livello di difficoltà 8), con un tasso di vittoria del 42,9% rispetto al 35,0%. Ciò suggerisce che la tecnica migliora notevolmente la capacità dei grandi modelli di linguaggio nel gestire istruzioni complesse.

Gli autori dello studio dimostrano che le uscite del modello WizardLM vengono scelte rispetto alle uscite di OpenAI ChatGPT valutando i risultati delle valutazioni umane della componente ad alta complessità. I risultati mostrano che il perfezionamento utilizzando istruzioni evolute dall’IA è una possibile via per rafforzare i grandi modelli di linguaggio, anche se WizardLM è ancora dietro ChatGPT su diversi aspetti. Sia il codice sorgente che i dati di output possono essere consultati su https://github.com/nlpxucan/WizardLM.

I ricercatori utilizzano i seguenti tre LLM come punti di partenza:

OpenAI ha creato il chatbot AI ChatGPT per facilitare la conversazione in modo naturale e interessante. Si basa su LLM addestrati utilizzando vasti volumi di dati di testo provenienti da Internet, come GPT-3.5 e GPT-4. Sono utilizzati metodi di apprendimento supervisionato e di rinforzo per perfezionare ChatGPT sotto la supervisione di formatori umani.

Alpaca è un’iniziativa dell’Università di Stanford per creare e diffondere un paradigma gratuito e basato sulla comunità per seguire le istruzioni. Il modello è stato sviluppato utilizzando 52K istanze di istruzioni-create interrogando il modello text-davinci003 di OpenAI ed è basato su LLaMA 7B, un grande modello di linguaggio addestrato su diverse fonti di testo.

Vicuna, un chatbot open-source, può fornire risposte umane e interessanti agli utenti. Basato su LLaMA 13B, è stato perfezionato utilizzando dati provenienti da 70K conversazioni condivise dagli utenti su ShareGPT.

I ricercatori utilizzano ChatGPT per valutare la complessità e la difficoltà di ogni istruzione, consentendo loro di approfondire ulteriormente il processo di evoluzione delle istruzioni. In conformità con la licenza del modello LLaMA, i ricercatori stanno rilasciando i pesi di [WizardLM] sotto forma di pesi delta. I pesi di WizardLM possono essere ottenuti aggiungendo il delta ai pesi iniziali di LLaMA.

I ricercatori utilizzano il set di valutazione delle istruzioni umane per confrontare gli output di Wizard con quelli generati dagli evaluatori umani. È stata effettuata una comparazione cieca a coppie tra Wizard e i controlli. La raccolta dei dati di valutazione degli autori copre molte attività focalizzate sull’utente, dalla generazione di codice complesso e debug fino al ragionamento matematico, al ragionamento sui formati complessi, alla scrittura accademica e alle discipline estese.

Questi risultati mostrano che l’approccio di istruzioni evolute tramite intelligenza artificiale di Evol-Instruct può migliorare notevolmente le prestazioni di LLM e dotare i modelli delle capacità necessarie per affrontare istruzioni complesse e sfidanti, come quelle che coinvolgono il calcolo matematico, lo sviluppo di programmi e la deliberazione logica.