Grandi modelli di lingua, StructBERT – Incorporazione delle strutture linguistiche nella preallenamento

I grandi modelli di lingua StructBERT - L'integrazione delle strutture linguistiche nella fase di preallenamento

Rendere i modelli più intelligenti incorporando migliori obiettivi di apprendimento

Introduzione

Dopo la sua prima apparizione, BERT ha mostrato risultati fenomenali in una varietà di compiti di NLP, inclusa l’analisi dei sentimenti, la similarità del testo, la risposta alle domande, ecc. Da allora, i ricercatori hanno cercato notoriamente di rendere BERT ancora più performante, modificando la sua architettura, aumentando i dati di addestramento, aumentando la dimensione del vocabolario o cambiando la dimensione nascosta dei layer.

Grandi modelli di lingua: BERT – Rappresentazioni codificatore bidirezionali da trasformatore

Comprendere come BERT crea rappresentazioni all’avanguardia

towardsdatascience.com

Nonostante la creazione di altri potenti modelli basati su BERT come RoBERTa, i ricercatori hanno trovato un altro modo efficiente per migliorare le prestazioni di BERT che verrà discusso in questo articolo. Questo ha portato allo sviluppo di un nuovo modello chiamato StructBERT, che supera BERT con sicurezza in cima alle classifiche.

L’idea di StructBERT è relativamente semplice e si concentra sulla modifica leggera dell’obiettivo di preaddestramento di BERT.

In questo articolo, esamineremo i dettagli principali del paper di StructBERT e comprenderemo gli obiettivi originariamente modificati.

Preparazione

<p+nel addestrato="" alla="" ampliare="" architettonici="" bert.="" complesso,="" conoscenza="" del="" di="" due="" gli="" ha="" il="" insieme="" la="" linguaggio="" linguistica="" mascherato.="" modellizzazione="" modello="" nuovi="" obiettivi="" obiettivo="" p="" per="" preaddestramento="" presenta="" principi="" questi="" questo="" seguito.

1. Obiettivo frase parola

Gli esperimenti hanno mostrato che il compito di modellizzazione del linguaggio mascherato (MSM) svolge un ruolo cruciale nel contesto di BERT per aiutarlo a ottenere una vasta conoscenza linguistica. Dopo il preaddestramento, BERT può indovinare correttamente le parole mascherate con alta precisione. Tuttavia, non è in grado di ricostruire correttamente una frase le cui parole sono mescolate. Per raggiungere questo obiettivo, gli sviluppatori di StructBERT hanno modificato l’obiettivo MSM mescolando parzialmente i token di input.

Come nell’originale BERT, una sequenza di input viene tokenizzata, mascherata e quindi mappata in token, embedding posizionali e di segmento. Tutti questi embedding vengono quindi sommati per produrre embedding combinati che vengono alimentati a BERT.

Durante la mascheratura, il 15% dei token scelti casualmente viene mascherato e quindi utilizzato per la modellizzazione del linguaggio, come in BERT. Ma subito dopo la mascheratura, StructBERT seleziona casualmente il 5% di K token consecutivi non mascherati e li mescola all’interno di ciascuna sottosequenza. Di default, StructBERT opera su trigrammi (K = 3).

Esempio di mescolamento di trigrammi

Quando viene calcolato l’ultimo livello nascosto, gli embedding di output dei token mascherati e mescolati vengono quindi utilizzati per prevedere i token originali tenendo conto delle loro posizioni iniziali.

In definitiva, l’obiettivo di frase parola viene combinato con l’obiettivo MLM con lo stesso peso.

2. Obiettivo strutturale frase

La previsione della frase successiva, che è un altro compito di preaddestramento di BERT, è considerata relativamente semplice. Padroneggiarla non porta ad un significativo miglioramento delle prestazioni di BERT nella maggior parte dei compiti successivi. Ecco perché i ricercatori di StructBERT hanno aumentato la difficoltà di questo obiettivo facendo predire a BERT l’ordine delle frasi.

Prendendo una coppia di frasi sequenziali S₁ e S₂ in un documento, StructBERT le usa per costruire un esempio di addestramento in uno dei tre modi possibili. Ognuno di questi modi si verifica con una probabilità uguale a 1/3:

  • S₂ è seguito da S₁ (etichetta 1);
  • S₁ è seguito da S₂ (etichetta 2);
  • Un’altra frase S₃ da un documento casuale viene campionata ed è seguita da S₁ (etichetta 0).

Ognuna di queste tre procedure produce una coppia ordinata di frasi che vengono poi concatenate. Il token [CLS] viene aggiunto prima dell’inizio della prima frase e i token [SEP] vengono utilizzati per segnalare la fine di ogni frase. BERT prende questa sequenza come input e produce un insieme di embedding sull’ultimo livello nascosto.

L’output dell’embedding [CLS] originariamente utilizzato in BERT per il compito di previsione della frase successiva, viene ora utilizzato in StructBERT per identificare correttamente una delle tre possibili etichette corrispondenti al modo originale in cui è stata costruita la sequenza di input.

Composizione degli esempi di addestramento

Obiettivo finale

L’obiettivo finale consiste in una combinazione lineare di obiettivi strutturali di parole e frasi.

Pre-allenamento BERT con inclusioni strutturali di parole e frasi

Impostazioni di StructBERT

Tutti i dettagli principali del pre-allenamento sono gli stessi in BERT e StructBERT:

  • StructBERT utilizza lo stesso corpus di pre-allenamento di BERT: Wikipedia in inglese (2500 milioni di parole) e BookCorpus (800 milioni di parole). La tokenizzazione viene eseguita tramite il tokenizer WordPiece.
  • Optimisator: Adam (learning rate l = 1e-4, peso di decadimento L₂ = 0.01, β₁ = 0.9, β₂ = 0.999).
  • Il riscaldamento del tasso di apprendimento viene eseguito per i primi 10% dei passi totali e quindi ridotto linearmente.
  • Viene utilizzato un livello di dropout (α = 0.1) su tutti i livelli.
  • Funzione di attivazione: GELU.
  • La procedura di pre-allenamento viene eseguita per 40 epoch.

Versioni di StructBERT

Come l’originale BERT, StructBERT presenta versioni base e large. Tutte le principali impostazioni come il numero di livelli, le teste di attenzione, la dimensione nascosta e il numero di parametri corrispondono rispettivamente alle versioni base e large di BERT.

Confronto tra StructBERT base e StructBERT large

Conclusione

Introducendo una nuova coppia di obiettivi di addestramento, StructBERT raggiunge nuovi limiti nell’NLP, superando costantemente BERT su vari compiti successivi. È stato dimostrato che entrambi gli obiettivi svolgono un ruolo indispensabile nell’impostazione di StructBERT. Mentre l’obiettivo strutturale della parola migliora principalmente le prestazioni del modello su problemi di singola frase, consentendo a StructBERT di ricostruire l’ordine delle parole, l’obiettivo strutturale della frase migliora la capacità di comprendere le relazioni tra frasi, che è particolarmente importante per i compiti di coppie di frasi.

Risorse

Tutte le immagini, salvo diversa indicazione, sono dell’autore