Google AI ha reso open-source Flan-T5 un modello di linguaggio basato su Transformer che utilizza un approccio di testo a testo per compiti di NLP.

Google AI ha reso open-source Flan-T5, un modello di linguaggio basato su Transformer per compiti di NLP, che utilizza un approccio testo a testo.

I modelli linguistici di grandi dimensioni, come PaLM, Chinchilla e ChatGPT, hanno aperto nuove possibilità nell’esecuzione di compiti di elaborazione del linguaggio naturale (NLP) a partire dalla lettura di indizi istruttivi. La letteratura precedente ha dimostrato che l’addestramento mirato, che comporta il perfezionamento dei modelli linguistici su vari compiti NLP organizzati con istruzioni, migliora ulteriormente la capacità dei modelli linguistici di svolgere un compito sconosciuto dato un’istruzione. Confrontando le loro procedure e strategie di perfezionamento, valutano gli approcci e i risultati delle iniziative di generalizzazione di istruzioni open source in questo articolo.

Questo lavoro si concentra sui dettagli dei metodi di perfezionamento delle istruzioni, eliminando i singoli fattori e confrontandoli direttamente. Identificano e valutano i miglioramenti metodologici critici nella “Collezione Flan 2022”, che è il termine che utilizzano per la raccolta dei dati e i metodi che si applicano ai dati e al processo di perfezionamento delle istruzioni che si concentrano sui risultati emergenti e all’avanguardia della combinazione di Flan 2022 con PaLM 540B. La Collezione Flan 2022 contiene la raccolta più completa di lavori e tecniche per l’adeguamento delle istruzioni attualmente disponibili pubblicamente. È stata arricchita con migliaia di modelli premium e migliori schemi di formattazione.

Dimostrano che, su tutti i benchmark di valutazione valutati, un modello addestrato su questa collezione supera altre collezioni pubbliche, tra cui la Flan 2021 originale, la loro T0++, la loro Super-Natural Instructions e il lavoro contemporaneo su OPT-IML. Ciò include, per modelli di dimensioni identiche, miglioramenti del 4,2%+ e dell’8,5% sui benchmark di valutazione MMLU e BIG-Bench Hard. Secondo un’analisi dell’approccio Flan 2022, i risultati robusti sono dovuti alla raccolta di compiti più ampia e variegata e a diverse strategie semplici per il perfezionamento e l’aumento dei dati. In particolare, l’addestramento su diverse istanze con modelli zero-shot, few-shot e catena di pensiero migliora le prestazioni in tutti questi contesti.

Ad esempio, un aumento del 10% nelle istanze few-shot migliora i risultati delle istanze zero-shot di almeno il 2%. Inoltre, è stato dimostrato che bilanciare le fonti di compiti e migliorare la varietà di compiti invertendo le coppie input-output, come fatto in, è essenziale per le prestazioni. Nel perfezionamento di un singolo compito, il modello risultante Flan-T5 converge più rapidamente e si comporta meglio rispetto ai modelli T5, indicando che i modelli perfezionati delle istruzioni forniscono un punto di partenza più efficace dal punto di vista computazionale per le applicazioni successive. Si prevede che rendere questi risultati e strumenti liberamente accessibili faciliterà le risorse disponibili per l’adattamento delle istruzioni e accelererà lo sviluppo di modelli linguistici più generici.

Le principali contribuzioni di questo studio sono elencate come segue: • Metodologiche: Dimostrano che l’addestramento con una combinazione di indizi zero e few-shot produce risultati significativamente superiori in entrambi gli ambienti. • Misurazione e dimostrazione dei metodi chiave per un perfezionamento delle istruzioni efficiente, inclusa la scalabilità della sezione 3.3, l’aumento della diversità dei compiti utilizzando l’inversione dell’input, l’aggiunta di dati di addestramento catena di pensiero e il bilanciamento di varie fonti di dati. • Risultati: Queste decisioni tecniche migliorano le prestazioni dei compiti tenuti fuori dal set di dati dal 3% al 17% rispetto alle collezioni di perfezionamento delle istruzioni open source disponibili • Conclusioni: Flan-T5 XL fornisce un punto di partenza computazionalmente più robusto ed efficace per il perfezionamento di un singolo compito. • Mettono a disposizione la nuova collezione di compiti Flan 2022, i modelli e le metodologie di ricerca per l’uso pubblico. Il codice sorgente è disponibile su GitHub.