data2vec Una pietra miliare nell’apprendimento non supervisionato
data2vec una pietra miliare nell'apprendimento non supervisionato
I modelli di apprendimento automatico si sono basati pesantemente su dati etichettati per l’addestramento e, tradizionalmente parlando, l’addestramento dei modelli su dati etichettati produce risultati accurati. Tuttavia, il principale svantaggio dell’utilizzo di dati etichettati sono i costi elevati di annotazione che aumentano con l’aumento della dimensione dei dati di addestramento. I costi elevati di annotazione sono un ostacolo importante per gli sviluppatori, specialmente quando si lavora su un progetto di grandi dimensioni con quantità considerevoli di dati di addestramento.
Per affrontare il problema dell’annotazione, gli sviluppatori hanno ideato il concetto di SSL o Apprendimento auto-supervisionato. L’apprendimento auto-supervisionato è un processo di apprendimento automatico in cui il modello si addestra per apprendere una porzione dell’input da un’altra parte dell’input. Un modello di apprendimento auto-supervisionato mira a sfruttare la relazione tra i dati anziché utilizzare i segnali supervisionati dei dati etichettati.
Oltre all’apprendimento auto-supervisionato, ci sono diversi altri metodi e modelli per addestrare modelli di apprendimento automatico senza l’uso di dati etichettati. Tuttavia, la maggior parte di questi metodi presenta due problemi principali:
- Spesso sono specializzati per una singola modalità come un’immagine o un testo.
- Richiedono una grande quantità di potenza di calcolo.
Questi limiti sono un problema importante perché una mente umana media è in grado di imparare da un singolo tipo di dati in modo molto più efficace rispetto a un modello di intelligenza artificiale che si basa su modelli separati e dati di addestramento per distinguere tra un’immagine, un testo e un discorso.
- Una guida completa per ottimizzare i grandi modelli di linguaggio
- Rilevazione automatica dell’inganno i ricercatori dell’Università di Tokyo utilizzano espressioni facciali e frequenza cardiaca per smascherare l’inganno attraverso l’apprendimento automatico
- Lab Sessions Una nuova serie di collaborazioni sperimentali di intelligenza artificiale
Per affrontare il problema della singola modalità, Meta AI ha rilasciato il data2vec, il primo algoritmo auto-supervisionato ad alte prestazioni per apprendere informazioni di pattern da tre diverse modalità: immagine, testo e discorso. Con l’implementazione dell’algoritmo data2vec, la comprensione del testo potrebbe essere applicata a un problema di segmentazione delle immagini, o potrebbe anche essere utilizzata in un compito di riconoscimento del discorso.
In questo articolo, parleremo in dettaglio del modello data2vec. Discuteremo l’overview del metodo, il lavoro correlato, l’architettura e i risultati del modello in modo approfondito in modo che tu abbia una chiara comprensione dell’algoritmo data2vec.
Data2vec Introduzione: L’Idea Principale
Anche se il concetto fondamentale dell’apprendimento auto-supervisionato viene applicato attraverso le modalità, gli obiettivi e gli algoritmi effettivi differiscono l’uno dall’altro perché sono stati progettati in relazione a una singola modalità. La progettazione di un modello per una singola modalità è il motivo per cui lo stesso algoritmo di apprendimento auto-supervisionato non può funzionare efficacemente su diversi tipi di dati di addestramento.
Per superare la sfida presentata da modelli e algoritmi a singola modalità, Meta AI ha rilasciato il data2vec, un algoritmo che utilizza la stessa metodologia di apprendimento per la visione artificiale, l’elaborazione del linguaggio naturale o il discorso.
L’idea principale dietro l’algoritmo data2vec è utilizzare la vista mascherata dell’input per prevedere rappresentazioni latenti dei dati di input completi in un setup di auto-distillazione con l’aiuto di un’architettura Transformer standard. Quindi, invece di oggetti specifici della modalità come immagini, testo o voce che sono locali per natura, l’algoritmo data2vec prevede rappresentazioni latenti con informazioni dall’intero set di addestramento o dati di input.
Perché l’Industria dell’IA Ha Bisogno dell’Algoritmo Data2Vec?
I modelli di apprendimento auto-supervisionato costruiscono rappresentazioni dei dati di addestramento utilizzando etichette annotate dall’uomo, ed è una delle principali ragioni del progresso della tecnologia NLP o elaborazione del linguaggio naturale e della tecnologia di visione artificiale. Queste rappresentazioni di apprendimento auto-supervisionato sono la ragione per cui compiti come il riconoscimento del discorso e l’apprendimento automatico utilizzano l’apprendimento non supervisionato nei loro modelli.
Fino ad ora, questi algoritmi di apprendimento auto-supervisionato si concentrano su modalità individuali che portano a pregiudizi di apprendimento e design specifici nei modelli. La modalità individuale degli algoritmi di apprendimento auto-supervisionato crea sfide in diverse applicazioni dell’IA, compresa la visione artificiale e l’elaborazione del linguaggio naturale.
Ad esempio, ci sono vocabolari di unità di discorso nell’elaborazione del discorso che possono definire un compito di apprendimento auto-supervisionato in NLP. Allo stesso modo, nella visione artificiale, gli sviluppatori possono addestrare l’input a regressione, imparare token visivi discreti o imparare rappresentazioni invarianti all’aumento dei dati. Anche se questi pregiudizi di apprendimento sono utili, è difficile confermare se questi pregiudizi si generalizzino ad altre modalità.
L’algoritmo data2vec rappresenta una pietra miliare importante nell’industria dell’apprendimento auto-supervisionato poiché mira a migliorare più modalità anziché solo una. Inoltre, l’algoritmo data2vec non si basa sulla ricostruzione dell’input o sull’apprendimento contrastivo.
Il motivo per cui il mondo ha bisogno di data2vec è perché l’algoritmo data2vec ha il potenziale di accelerare il progresso nell’AI e contribuisce allo sviluppo di modelli AI in grado di apprendere in modo trasparente diversi aspetti del loro ambiente circostante. Gli scienziati sperano che l’algoritmo data2vec permetta loro di sviluppare modelli AI e ML più adattabili in grado di svolgere compiti altamente avanzati al di là di quanto possano fare i modelli AI attuali.
Cos’è l’algoritmo Data2Vec?
Data2Vec è un framework unificato che mira a implementare l’apprendimento automatico auto-supervisionato su diverse modalità di dati, tra cui immagini, speech e testo.
L’algoritmo Data2Vec mira a sviluppare modelli di apprendimento automatico in grado di apprendere in modo migliore i modelli generali presenti nell’ambiente mantenendo l’obiettivo di apprendimento uniforme tra diverse modalità. Il modello Data2Vec unifica l’algoritmo di apprendimento, ma apprende ancora le rappresentazioni per ogni modalità in modo individuale.
Con l’introduzione dell’algoritmo Data2Vec, Meta AI spera che renda l’apprendimento multimodale efficace e molto più semplice.
Come funziona l’algoritmo Data2Vec?
L’algoritmo Data2Vec combina l’apprendimento di rappresentazioni target latenti con la previsione mascherata, anche se utilizza più layer di rete come target per generalizzare le rappresentazioni latenti. Il modello allena in modo specifico una rete Transformer di uso comune che viene poi utilizzata in modalità teacher o student.
In modalità teacher, il modello costruisce innanzitutto le rappresentazioni dei dati di input che servono come target nel compito di apprendimento. In modalità student, il modello codifica una versione mascherata dei dati di input che viene quindi utilizzata per fare previsioni sulle rappresentazioni complete dei dati.
L’immagine sopra rappresenta come il modello Data2Vec utilizza lo stesso processo di apprendimento per diverse modalità. Nel primo passaggio, il modello produce rappresentazioni dei dati di input (modalità teacher). Il modello quindi regredisce su queste rappresentazioni sulla base di una versione mascherata dell’input.
Inoltre, poiché l’algoritmo Data2Vec utilizza rappresentazioni latenti dei dati di input, può essere considerato una versione semplificata di progetti specifici per ogni modalità come la creazione di target adatti mediante la normalizzazione dell’input o l’apprendimento di un insieme fisso di token visivi. Ma il punto differenziante cruciale tra l’algoritmo Data2Vec e altri algoritmi è che l’algoritmo Data2Vec utilizza l’auto-attenzione per rendere la sua rappresentazione target contestualizzata e continua. Al contrario, altri modelli di apprendimento auto-supervisionato utilizzano un insieme fisso di target basati su un contesto locale.
Data2Vec: Metodo del Modello
Il modello Data2Vec viene addestrato prevedendo le rappresentazioni del modello dei dati di input dati una vista parziale dell’input. Come si può vedere nell’immagine fornita, il volto del cane è mascherato, una sezione particolare della nota vocale è mascherata e la parola “con” è mascherata nel testo.
Il modello codifica innanzitutto una versione mascherata del campione di addestramento (modalità student), quindi codifica la versione non mascherata dell’input per costruire target di addestramento con lo stesso modello, ma solo quando è parametrizzato come la media esponenziale dei pesi del modello (modalità teacher). Inoltre, le rappresentazioni target codificano le informazioni presenti nel campione di addestramento e, in modalità student, il compito di apprendimento viene utilizzato per prevedere queste rappresentazioni quando viene fornita una vista parziale dell’input.
Architettura del Modello
Il modello Data2Vec utilizza un’architettura standard Transformer con una codifica specifica della modalità dei dati di input. Per le attività legate alla visione artificiale, il modello utilizza la strategia ViT per codificare un’immagine come una sequenza di patch in cui ogni immagine si estende su 16×16 pixel e viene alimentata come una trasformazione lineare.
Inoltre, per i dati di riconoscimento vocale, il modello codifica i dati utilizzando una rete neurale convoluzionale 1-D a più strati che mappa i waveform a 16 kHz in rappresentazioni a 50 Hz. Per elaborare i dati di testo, il modello preelabora i dati per estrarre unità di sub-word e quindi incorpora i dati in uno spazio distribuzionale tramite vettori di embedding.
Mascheramento
Una volta che il modello incorpora i dati di input come una sequenza di token, il modello maschera parti di queste unità sostituendole con un token di incorporamento e quindi alimenta la sequenza alla rete Transformer. Per la visione artificiale, il modello pratica una strategia di marcatura a livello di blocco. Le rappresentazioni latenti del linguaggio sono utilizzate per mascherare intervalli di dati vocali e per i compiti legati al linguaggio, i token sono mascherati.
Obiettivi di addestramento
Il modello data2vec mira a predire le rappresentazioni del modello del campione di addestramento non mascherato basandosi su una codifica del campione mascherato che è stata fornita originariamente al modello. Il modello predice le rappresentazioni solo per passaggi temporali mascherati.
Il modello predice rappresentazioni contestualizzate che non solo codificano il particolare passaggio temporale, ma codificano anche altre informazioni dal campione perché utilizza l’autoattenzione nella rete Transformer. Le rappresentazioni contestualizzate e l’uso della rete Transformer sono ciò che differenzia il modello data2vec dai modelli esistenti come BERT, wav2vec, BEiT, SimMIM, MAE e MaskFeat che predicono obiettivi senza informazioni contestuali.
Ecco come il modello data2vec parametrizza la modalità insegnante per predire le rappresentazioni di rete che poi fungono da obiettivi.
Parametrizzazione dell’insegnante
Il modello data2vec parametrizza la codifica del campione di addestramento non mascherato con l’uso di EMA o Media Mobile Esponenziale dei parametri del modello (θ) dove i pesi del modello nella modalità obiettivo(△) sono i seguenti:
∆ ← τ∆ + (1 − τ ) θ
Inoltre, il modello programma τ in modo che aumenti linearmente il parametro da τ0 a τe (valore obiettivo) durante i primi τn aggiornamenti. Dopo questi aggiornamenti, il modello mantiene il valore costante fino alla fine dell’addestramento. L’uso della strategia EMA aggiorna l’insegnante molto più frequentemente all’inizio quando l’addestramento inizia quando il modello è casuale. Man mano che l’addestramento procede e vengono apprese buone impostazioni, l’insegnante viene aggiornato meno frequentemente.
I risultati mostrano che il modello è più efficiente e preciso quando condivide i parametri dell’encoder delle caratteristiche e dell’encoder posizionale tra la modalità studente e la modalità insegnante.
Obiettivi
La costruzione degli obiettivi di addestramento dipende dall’output dei primi K blocchi della rete insegnante per i passaggi temporali mascherati nella modalità studente. L’output del blocco l in qualsiasi passaggio temporale t è indicato come alt. Il modello applica quindi una normalizzazione a ciascun blocco per ottenere âlt prima di mediare i primi K blocchi.
per ottenere l’obiettivo di addestramento yt per il passaggio temporale t per una rete con un totale di L blocchi.
Crea obiettivi di addestramento che il modello regressa quando si trova in modalità studente. Nei primi esperimenti, il modello data2vec ha ottenuto buoni risultati nella predizione di ogni blocco separatamente con una proiezione dedicata, e allo stesso tempo è stato molto più efficiente.
Inoltre, la normalizzazione degli obiettivi consente anche al modello data2vec di non collassare in rappresentazioni costanti per i passaggi temporali e previene che i livelli con normalizzazione elevata dominino le caratteristiche nell’insieme di dati obiettivo. Per il riconoscimento vocale, il modello utilizza la normalizzazione istanza sull’input corrente senza parametri appresi. Questo perché, dato che lo spostamento sui dati di input è piccolo, le rappresentazioni adiacenti sono altamente correlate.
Inoltre, i ricercatori hanno scoperto che quando si lavora con visione artificiale e NLP, la normalizzazione senza parametri fa abbastanza bene il lavoro. Il problema può anche essere risolto con la regolarizzazione Variance-Invariance-Covariance, ma la strategia sopra menzionata si comporta sufficientemente bene e non richiede parametri aggiuntivi.
Obiettivo
Per gli obiettivi di addestramento contestualizzati yt, il modello utilizza una Smooth L1 loss per regredire gli obiettivi come indicato di seguito:
Qui, β controlla la transizione da una perdita quadratica a una perdita L1, ed è fortemente influenzato dalla dimensione del divario tra la previsione del modello ft(x) al passo t. Il vantaggio di questa perdita è che è comparativamente meno sensibile agli outlier, con la necessità di regolare l’impostazione di β.
Setup Sperimentale
Il modello data2vec è stato sperimentato con due dimensioni del modello: data2vec Large e data2vec Base. Per stabilità numerica, gli aggiornamenti EMA vengono eseguiti in fp32 e i modelli contengono L = 12 o L = 24 blocchi di Transformer con dimensioni nascoste (H) = 768 o H = 1024. Diamo un’occhiata dettagliata alla configurazione sperimentale per diverse modalità e scopi.
Visione Artificiale
Il modello data2vec incorpora immagini di 224×224 pixel come patch di 16×16 pixel. Ogni patch viene trasformata linearmente e una sequenza con 196 rappresentazioni viene alimentata al Transformer standard.
Il modello segue BEiT per mascherare i blocchi con patch adiacenti, con ciascun blocco che ha un minimo di 16 patch con un rapporto di aspetto casuale. Tuttavia, invece di mascherare il 40% della patch come originariamente nel modello BEiT, il modello data2vec maschera il 60% della patch per una maggiore precisione.
Inoltre, il modello ridimensiona casualmente i ritagli delle immagini, esegue flips orizzontali e jittering del colore. Infine, il modello data2vec utilizza la stessa immagine modificata sia nella modalità teacher che nella modalità student.
I modelli ViT-B sono preaddestrati per 800 epoche e il modello data2vec utilizza una dimensione del batch di 8.192 per il modello ViT-L e 2.048 per il modello ViT-B. Il modello data2vec utilizza anche una programmazione cosinusoidale e Adam con un singolo ciclo per riscaldare il tasso di apprendimento per 80 epoche a 0,001 per ViT-L e per 40 epoche a 0,001 per ViT-B.
Sia per ViT-B che per ViT-L, il modello data2vec utilizza β = 2, K = 6 e τ = 0,9998 come costanti senza programmazione. Il modello utilizza inoltre il tasso di profondità stocastica 0,2.
Inoltre, per ViT-L, il modello viene addestrato per 1.600 epoche, dove le prime 800 epoche hanno un tasso di apprendimento pari a 0,9998, quindi il modello ripristina la programmazione del tasso di apprendimento e continua per le ultime 800 epoche con un tasso di apprendimento pari a 0,9999.
Per la classificazione delle immagini, il modello utilizza la media dei valori di output dell’ultimo blocco Transformer e li alimenta al classificatore normalizzato con softmax. Successivamente, il modello affina ulteriormente ViT-L per 50 epoche e ViT-B per 100 epoche utilizzando la programmazione cosinusoidale e Adam per riscaldare il tasso di apprendimento.
Elaborazione del Linguaggio Parlato
Per l’elaborazione del linguaggio parlato, il modello data2vec utilizza Fairseq, un kit di modellazione di sequenze utilizzato per addestrare modelli personalizzati per riassunto, traduzione e generazione di testo. Il modello prende in input un’onda di 16 kHz che viene elaborata utilizzando un codificatore di caratteristiche e contiene convoluzioni temporali con 512 canali, larghezze di kernel (10,3,3,3,3,2,2) e passi (5,2,2,2,2,2,2).
Ciò comporta una frequenza di output dell’encoder di 50Hz e ha uno spostamento di 20 ms tra ogni campione. Il campo recettivo è costituito da 400 campioni di input o 25 ms di audio. L’onda grezza alimentata all’encoder viene normalizzata a varianza unitaria e media zero.
La strategia di mascheramento utilizzata da data2vec per il modello Base assomiglia al framework Baevski per l’apprendimento auto-supervisionato nel riconoscimento del parlato. Il modello campiona p = 0,065 per tutti i passaggi temporali come indici di inizio e procede a marcare i successivi dieci passaggi temporali. Per una sequenza di addestramento tipica, il processo consente di mascherare quasi il 49% dei passaggi temporali totali.
Durante l’addestramento, il modello data2vec diminuisce linearmente τ utilizzando τo = 0,999, τe = 0,9999 e τn = 30.000. Il modello data2vec utilizza l’ottimizzatore Adam con un tasso di apprendimento massimo di 5×10-4 per il modello Base. Inoltre, il modello Base utilizza un programmatore a tre stadi che riscalda linearmente il tasso di apprendimento per il primo 3% degli aggiornamenti, lo mantiene per il successivo 90% e poi lo fa decadere linearmente per il restante 7%.
Elaborazione del Linguaggio Naturale
Il modello data2vec utilizza la codifica dei byte-pair di 50K tipi per tokenizzare l’input, e il modello apprende quindi una rappresentazione per ogni tipo. Dopo che i dati sono codificati, il modello applica la strategia di mascheratura BERT al 15% dei token selezionati in modo uniforme, in cui l’80% viene sostituito da token di maschera appresi, il 10% viene sostituito da token di vocabolario casuale e il restante 10% rimane invariato.
Durante la pre-elaborazione, il modello utilizza τo = 0,999, τe = 0,9999 e τn = 100.000, K = 10 e β = 4. Il modello utilizza l’ottimizzatore Adam con un programma di apprendimento a tre stadi che aumenta linearmente il tasso di apprendimento per i primi 5% degli aggiornamenti, lo mantiene costante per il 80% successivo e poi lo fa decadere linearmente per il restante 15%, con il tasso di apprendimento massimo pari a 2×10-4.
Inoltre, il modello viene addestrato su 16 GPU con una dimensione di batch di 256 sequenze, e ogni sequenza contiene circa 512 token. Per il downstreaming, il modello viene pre-addestrato con quattro diversi tassi di apprendimento: 1×10-4, 2×10-4, 3×10-4, 4×10-4, e viene selezionato quello che fornisce le migliori prestazioni per ulteriori compiti di downstreaming NLP.
Risultati
Diamo un’occhiata alle prestazioni del modello data2vec quando implementa le strategie discusse sopra per diverse modalità.
Visione Artificiale
Per valutare i risultati per la visione artificiale, il modello data2vec viene pre-addestrato sulle immagini ottenute dal dataset ImageNet-1K. Il modello risultante viene quindi sottoposto a un fine-tuning utilizzando i dati etichettati dello stesso benchmark. Come da prassi standard, il modello viene quindi valutato in termini di accuratezza top-1 sui dati di validazione.
I risultati vengono quindi suddivisi sulla base di un singolo modello auto-supervisionato, e addestrando un tokenizer visivo separato su dati aggiuntivi, o su altri modelli di apprendimento auto-supervisionato.
La tabella seguente confronta le prestazioni del modello data2vec per la visione artificiale e altri modelli esistenti: ViT-L e ViT-B.
I risultati della tabella precedente possono essere riassunti come segue.
- Il modello data2vec supera i lavori precedenti sia con i modelli ViT-L che ViT-B in un ambiente a singolo modello.
- La configurazione di previsione mascherata utilizzata nell’algoritmo data2vec per prevedere rappresentazioni latenti contestualizzate funziona meglio rispetto ai metodi che prevedono obiettivi locali come caratteristiche di ingegneria delle immagini, pixel di input o token visivi.
- Il modello data2vec supera anche i metodi di auto-distillazione che regrediscono l’ultimo strato della rete studente prendendo due versioni aumentate diverse di un’immagine come input.
Elaborazione Audio e del Parlato
Per l’elaborazione audio e del parlato, il modello data2vec viene addestrato su circa 960 ore di dati audio ottenuti dal dataset Librispeech(LS-960). Il dataset contiene registrazioni audio di parlato pulito tratto da audiolibri in inglese ed è considerato un benchmark standard nell’industria dell’elaborazione audio e del parlato.
Per analizzare le prestazioni del modello in diversi scenari di risorse, i ricercatori hanno addestrato ulteriormente il modello data2vec utilizzando diverse quantità di dati etichettati (da pochi minuti a diverse ore) per il riconoscimento automatico del parlato. Per analizzare le prestazioni del modello, data2vec viene confrontato con HuBERT e wav2vec 2.0, due degli algoritmi più popolari per l’apprendimento della rappresentazione audio e del parlato che si basano su unità di parlato discrete.
La tabella precedente confronta le prestazioni di data2vec in termini di tasso di parole per il riconoscimento del parlato con altri modelli esistenti. LM rappresenta il modello del linguaggio utilizzato per la decodifica. I risultati possono essere riassunti come segue.
- Il modello data2vec mostra miglioramenti per la maggior parte delle configurazioni di dati etichettati, con il guadagno più grande di 10 minuti di dati etichettati per i modelli Base.
- Per quanto riguarda i modelli di grandi dimensioni, il modello offre prestazioni significativamente migliori su piccoli dataset etichettati, mentre le prestazioni sono comparabili su dataset ricchi di risorse con oltre 100 e 960 ore di dati etichettati. Questo perché le prestazioni generalmente raggiungono un plateau su dataset con molte risorse per la maggior parte dei modelli.
- Dopo aver analizzato le prestazioni, si può dedurre che quando il modello utilizza obiettivi contestualizzati ricchi, non è essenziale apprendere unità discrete.
- L’apprendimento di obiettivi contestualizzati durante l’addestramento aiuta a migliorare significativamente le prestazioni complessive.
Inoltre, per convalidare l’approccio di data2vec per il riconoscimento del parlato, il modello viene anche addestrato sul benchmark AudioSet. Sebbene la configurazione di pre-addestramento per AudioSet sia simile a Librispeech, il modello viene addestrato per K= 12, per oltre 200K aggiornamenti, con una dimensione di batch di 94,5 minuti.
Successivamente, il modello applica il framework DeepNorm e la normalizzazione di livello agli obiettivi per aiutare a stabilizzare l’addestramento. Inoltre, il modello viene anche sintonizzato sulle sottoinsiemi bilanciati con una dimensione di batch di 21,3 minuti su 13k aggiornamenti. Il modello utilizza anche il Linear Softmax Pooling e il mixup con un punteggio di probabilità del 0,7. Il modello aggiunge quindi una proiezione lineare singola in 527 classi audio uniche e imposta il tasso di apprendimento della proiezione a 2e-4.
Inoltre, i parametri di pre-addestramento hanno un tasso di apprendimento di 3e-5 e il modello utilizza tecniche di mascheramento per il sintonizzazione del dataset. La tabella di seguito riassume i risultati e si può osservare che il modello data2vec è in grado di superare una configurazione comparabile con lo stesso sintonizzazione fine e dati di pre-addestramento.
Elaborazione del Linguaggio Naturale
Per analizzare le prestazioni di data2vec sul testo, il modello segue la stessa configurazione di addestramento di BERT e pre-addestra il modello sul dataset di Wikipedia in inglese con oltre 1M di aggiornamenti e una dimensione di batch di 256 sequenze. Il modello viene valutato sul benchmark GLUE o General Language Understanding Evaluation che include compiti di interferenza del linguaggio naturale (MNLI o Multi Genre Natural Language Inference), similarità di frasi (QQP o Quora Question Pairs benchmark, MRPC o Microsoft Research Paragraph Corpus e STS-B o Semantic Textual Similarity Benchmark), analisi del sentimento (SST-2 o Stanford Sentiment Treebank) e grammaticale (CoLA).
Inoltre, per sintonizzare ulteriormente il modello data2vec, i dati etichettati sono forniti da ciascun compito e l’accuratezza media è riportata sui set di sviluppo con 5 esecuzioni di sintonizzazione fine. La tabella seguente riassume le prestazioni del modello data2vec per i compiti di Elaborazione del Linguaggio Naturale e le confronta con altri modelli.
- I dati sopra mostrano che il modello data2vec supera il modello di base RoBERTa poiché la strategia nel modello data2vec non utilizza obiettivi casuali.
- Il modello data2vec è il primo modello NLP pre-addestrato di successo che non utilizza unità discrete come caratteri, parole o sotto-parole come obiettivi di addestramento. Invece, il framework data2vec predice una rappresentazione latente contestualizzata sull’intera sequenza di testo non mascherata.
- Questo aiuta a creare un compito di apprendimento in cui il modello deve prevedere obiettivi con proprietà specifiche dalla sequenza corrente anziché prevedere rappresentazioni che sono generiche per ogni unità di testo con discrezione particolare.
- Inoltre, l’insieme di obiettivi di addestramento non è fisso e il modello è libero di definire nuovi obiettivi ed è aperto alle impostazioni del vocabolario.
Data2Vec: Studio delle Ablazioni
Ablazione è un termine usato per definire la rimozione di un componente nei sistemi di Intelligenza Artificiale e Machine Learning. Uno studio di ablazione viene utilizzato per indagare o analizzare le prestazioni di un modello di Intelligenza Artificiale o Machine Learning rimuovendo determinati componenti chiave dal modello che consentono ai ricercatori di comprendere il contributo di quel componente nel sistema complessivo.
Obiettivi Mediati dal Livello
Una differenza importante tra data2vec e altri modelli di apprendimento auto-supervisionato è che il modello data2vec utilizza obiettivi basati sulla media di più livelli della rete di insegnanti. L’idea deriva dal fatto che i livelli più alti del modello wav2vec 2.0 non funzionano bene per i compiti successivi rispetto ai livelli intermedi del modello.
Nell’esperimento seguente, le prestazioni di tutte e tre le modalità vengono misurate mediando K= 1, 2, …, 12 livelli, dove K= 1 prevede solo il livello superiore. Tuttavia, per estrarre un tempo di risposta più rapido, data2vec addestra il modello di base con un totale di 12 livelli. Per il riconoscimento del parlato, il modello viene pre-addestrato su oltre duecentomila aggiornamenti su Librispeech, e quindi sintonizzato su una divisione etichettata di 10 ore di Libri-light. Per l’Elaborazione del Linguaggio Naturale, il modello riporta il punteggio GLUE medio per il set di validazione e pre-addestra il modello per 300 epoche per la visione artificiale, quindi riporta l’accuratezza top-1 ottenuta sul dataset ImageNet.
La figura sopra mostra che gli obiettivi basati su più livelli generalmente migliorano quando viene utilizzato solo il livello superiore K=1 per tutte le modalità. Utilizzare tutti i livelli disponibili è una buona pratica poiché le reti neurali costruiscono caratteristiche su diversi tipi di feature e numerosi livelli che vengono poi estratti come livelli di feature.
Utilizzare feature da più livelli aiuta a migliorare l’accuratezza e arricchisce il processo di apprendimento auto-supervisionato.
Tipo di Caratteristica Obiettivo
I blocchi trasformatore nel modello data2vec hanno diversi livelli che possono fungere da obiettivi. Per analizzare come diversi livelli influenzano le prestazioni, il modello viene pre-addestrato sui modelli di Librispeech per il riconoscimento del parlato che utilizzano diversi livelli come caratteristiche obiettivo.
La figura sottostante indica chiaramente che l’output della rete feed forward o FFN funziona in modo ideale, mentre l’output dei blocchi di auto-attenzione non produce un modello utilizzabile.
Contestualizzazione Obiettivo
Le rappresentazioni dell’insegnante nel modello data2vec utilizzano l’auto-attenzione sull’intero input per produrre obiettivi contestualizzati. È ciò che differenzia il data2vec da altri modelli di apprendimento auto-supervisionato che costruiscono un compito di apprendimento ricostruendo o predendo parti locali dell’input. Evidentemente pone la domanda: il modello data2vec richiede obiettivi contestualizzati per funzionare bene?
Per rispondere alla domanda, i ricercatori costruiscono rappresentazioni obiettivo che non hanno accesso all’intero dataset di input, ma solo a una frazione predeterminata. Il modello limita quindi il meccanismo di auto-attenzione dell’insegnante che gli consente di accedere solo a una parte dell’input ambientale circostante. Dopo che il modello è stato addestrato, viene sintonizzato per accedere alla dimensione del contesto completo.
La figura sottostante indica che dimensioni di contesto più grandi portano spesso a una migliore performance e quando l’intero campione di input è visibile, si ottiene la migliore accuratezza. Ciò dimostra ulteriormente che rappresentazioni obiettivo più ricche possono portare a una migliore performance.
Estrattori di Caratteristiche Specifici della Modalità e Mascheramento
Lo scopo principale di data2vec è progettare un meccanismo di apprendimento semplice che possa funzionare con diverse modalità. Questo perché, sebbene i modelli e i framework attuali abbiano un regime di apprendimento unificato, utilizzano ancora mascheramento e estrattori di caratteristiche specifici della modalità.
Ha senso che i framework funzionino principalmente con una singola modalità dato che la natura dei dati di input varia notevolmente tra di esse. Ad esempio, i modelli di riconoscimento del parlato utilizzano un input ad alta risoluzione (come un segnale acustico a 10 kHz) che di solito ha migliaia di campioni. Il segnale acustico viene quindi elaborato dal framework utilizzando una rete neurale convoluzionale multistrato per ottenere sequenze di caratteristiche a 50 Hz.
Obiettivi Strutturati e Contestualizzati
Il punto di differenza principale tra il modello data2vec e altri modelli di previsione mascherata è che nel modello data2vec le caratteristiche degli obiettivi di addestramento sono contestualizzate. Queste caratteristiche vengono costruite utilizzando l’auto-attenzione dell’intero input mascherato in modalità insegnante.
Altri framework come BYOL (Bootstrap Your Own Latent) o DINO utilizzano anche rappresentazioni latenti come il data2vec, ma il loro focus principale è apprendere rappresentazioni invarianti rispetto alle trasformazioni.
Riflessioni Finali
Recenti lavori nell’industria dell’IA e dell’apprendimento automatico hanno indicato che le architetture di modelli uniformi possono essere un approccio efficace per affrontare diverse modalità. Il modello data2vec utilizza un approccio di apprendimento auto-supervisionato per lavorare con tre modalità: parlato, immagini e linguaggio.
Il concetto chiave dietro il modello data2vec è utilizzare una vista parziale dell’input per regredire le informazioni contestualizzate o i dati di input. L’approccio utilizzato dai framework data2vec è efficace poiché il modello ottiene prestazioni migliori rispetto ai modelli di apprendimento auto-supervisionato precedenti sul dataset ImageNet-1K sia per i modelli singoli ViT-B che ViT-L.
Data2vec è veramente una pietra miliare nell’industria dell’apprendimento auto-supervisionato poiché dimostra che un singolo metodo di apprendimento per apprendere diverse modalità può effettivamente rendere più facile per i modelli apprendere attraverso le modalità.