ReLU vs. Softmax in Vision Transformers Does Sequence Length Matter? Insights from a Google DeepMind Research Paper’ ‘ReLU vs Softmax nei Vision Transformers La lunghezza della sequenza conta? Spunti da un articolo di ricerca di Google DeepMind

ReLU vs. Softmax in Vision Transformers Does Sequence Length Matter? Insights from Google DeepMind Research.

Un’architettura comune di machine learning oggi è l’architettura del transformer. Una delle parti principali del transformer, l’attenzione, ha una softmax che genera una distribuzione di probabilità tra i token. La parallelizzazione è difficile con la softmax in quanto è costosa a causa di un calcolo esponenziale e una somma sulla lunghezza della sequenza. In questo studio, investigano alternative a softmax punto per punto che non forniscono sempre una distribuzione di probabilità. Una scoperta notevole è che, per i transformers visivi, il comportamento di scalatura dell’attenzione con ReLU divisa per la lunghezza della sequenza può avvicinarsi o corrispondere a quello dell’attenzione softmax classica.

Questa scoperta apre nuove possibilità per la parallelizzazione poiché l’attenzione ReLU si parallelizza più facilmente rispetto all’attenzione standard lungo la dimensione della lunghezza della sequenza. In studi precedenti, ReLU o ReLU quadrata sono state considerate possibili sostituti della softmax. Tuttavia, questi metodi non si dividono per la lunghezza della sequenza, che i ricercatori di Google DeepMind trovano cruciale per ottenere un’accuratezza paragonabile a quella della softmax. Inoltre, ricerche precedenti hanno assunto il ruolo della softmax, sebbene la normalizzazione lungo l’asse della lunghezza della sequenza sia ancora necessaria per garantire che i pesi di attenzione sommino a uno. Rimane il problema di richiedere una raccolta. Inoltre, esiste una vasta ricerca che elimina le funzioni di attivazione per rendere l’attenzione lineare, il che è vantaggioso per durate di sequenza lunghe.

Nei loro studi, l’accuratezza è stata ridotta quando l’attivazione è stata completamente rimossa. I loro test utilizzano le impostazioni di addestramento ImageNet-21k e ImageNet-1k da BigVision senza cambiare gli iperparametri. Si addestrano per 30 epoche nei loro esperimenti su ImageNet-21k e 300 epoche nei loro test su ImageNet-1k. Di conseguenza, entrambe le esecuzioni di addestramento richiedono circa 9e5 passaggi, che è una quantità simile. Poiché si era scoperto in precedenza che ciò era necessario per evitare l’instabilità durante la scalatura delle dimensioni del modello, utilizzano ViTs con la norma del livello qk. Concludono che questo non è un elemento cruciale per le loro scale.

Riportano l’accuratezza di ImageNet-1k per i modelli ImageNet-21k prendendo la classe migliore tra quelle in ImageNet-1k senza il fine-tuning. Utilizzano i termini i21k e i1k per indicare rispettivamente ImageNet-21k e ImageNet-1k. Utilizzano una sonda lineare a 10 riprese mediata su tre seed per valutare le prestazioni di trasferimento su attività downstream. Le attività downstream sono Caltech Birds, Caltech101, Stanford Cars, CIFAR-100, DTD, ColHsit, Pets e UC Merced. Questo studio solleva molte questioni ancora senza risposta. Devono scoprire perché il fattore L^(-1) migliora le prestazioni o se questo concetto può essere appreso. Inoltre, potrebbe esserci una funzione di attivazione più efficace che non stanno investigando.