Stanco di tarare i tassi di apprendimento? Incontra DoG un semplice ottimizzatore senza parametri supportato da solide garanzie teoriche

Tired of tuning learning rates? Meet DoG, a simple parameter-free optimizer with strong theoretical guarantees.

Ricercatori presso l’Università di Tel Aviv propongono una formula di dimensionamento dinamico gratuita di SGD, chiamata Distance over Gradients (DoG), che dipende solo dalle quantità empiriche senza alcun parametro del tasso di apprendimento. Dimostrano teoricamente che una leggera variazione nella formula DoG porterebbe a gradienti stocastici localmente limitati che convergono.

Un processo stocastico richiede un parametro ottimizzato, e il tasso di apprendimento rimane difficile. I metodi precedenti di successo includono la selezione di un tasso di apprendimento adatto dai lavori precedenti. Metodi come i metodi di gradiente adattivo richiedono che il parametro del tasso di apprendimento sia regolato. Un’ottimizzazione senza parametri non richiede regolazioni, poiché gli algoritmi sono progettati per raggiungere un tasso di convergenza quasi ottimale senza alcuna conoscenza preliminare del problema.

I ricercatori dell’Università di Tel Aviv adottano le intuizioni chiave di Carmon e Hinder e sviluppano un programma di dimensionamento senza parametri. Mostrano che iterando DoG, esiste una probabilità elevata che DoG raggiunga un tasso di convergenza logaritmico. Tuttavia, DoG non è sempre stabile. Le sue iterazioni possono allontanarsi sempre di più dall’ottimizzazione. Quindi, utilizzano una variante di DoG, che chiamano T-DoG, in cui la dimensione del passo è più piccola di un fattore logaritmico. Ottengono una probabilità elevata che garantisce la convergenza.

I loro risultati, confrontati con SGD, mostrano che con un programma di dimensionamento del passo cosinusoidale e un apprendimento basato sulla regolazione, DoG raramente raggiunge un miglioramento dell’errore relativo superiore al 5%, ma per i problemi convessi, la differenza relativa nell’errore è inferiore all’1%, il che è sorprendente. La loro teoria predice anche che DoG funziona in modo coerente su un’ampia gamma di sensibilità. I ricercatori hanno anche utilizzato modelli di linguaggio transformer ottimizzati per testare l’efficienza di DoG nell’elaborazione moderna del linguaggio naturale (NLU).

I ricercatori hanno anche effettuato esperimenti limitati sul principale banco di prova di ottimizzazione con ImageNet come attività secondaria. Questi richiedono più risorse per la regolazione all’aumentare della scala. Hanno ottimizzato il modello CLIP e lo hanno confrontato con DoG e L-DoG. Hanno riscontrato che entrambi gli algoritmi hanno prestazioni significativamente peggiori. È dovuto a un budget di iterazioni insufficiente.

I ricercatori hanno sperimentato l’addestramento di un modello da zero con una media polinomiale. DoG si comporta bene rispetto a SGD, con un momentum dello 0,9 e un tasso di apprendimento dello 0,1. Confrontati con altri metodi senza regolazione, DoG e L-DoG offrono prestazioni migliori nella maggior parte dei compiti.

Anche se i risultati di DoG sono promettenti, è necessario svolgere ulteriori lavori su questi algoritmi. Le tecniche ben consolidate come il momentum, i tassi di apprendimento pre-parametrizzati e l’annealing del tasso di apprendimento devono essere combinate con DoG, il che si rivela difficile sia dal punto di vista teorico che sperimentale. I loro esperimenti suggeriscono una connessione con la normalizzazione del batch, che può portare anche a metodi di addestramento robusti.

Infine, la loro teoria e i loro esperimenti suggeriscono che DoG ha il potenziale per risparmiare significative risorse di calcolo attualmente impiegate nella regolazione del tasso di apprendimento a costo ridotto o nullo in termini di prestazioni.