I ricercatori di Meta AI e Samsung presentano due nuovi metodi di intelligenza artificiale, Prodigy e Resetting, per l’adattamento del tasso di apprendimento che migliorano il tasso di adattamento del metodo D-Adaptation all’avanguardia.

Meta AI and Samsung researchers present two new AI methods, Prodigy and Resetting, to adapt the learning rate and improve the state-of-the-art D-Adaptation method's adaptation rate.

L’apprendimento automatico moderno si basa fortemente sull’ottimizzazione per fornire risposte efficaci a problemi complessi in aree come la visione artificiale, l’elaborazione del linguaggio naturale e l’apprendimento per rinforzo. La difficoltà nel raggiungere una convergenza rapida e soluzioni di alta qualità dipende principalmente dai tassi di apprendimento scelti. Le applicazioni con numerosi agenti, ognuno con il proprio ottimizzatore, hanno reso più difficile il tuning del tasso di apprendimento. Alcuni ottimizzatori sintonizzati manualmente funzionano bene, ma questi metodi richiedono tipicamente abilità esperte e lavoro laborioso. Pertanto, negli ultimi anni, i metodi di apprendimento con tassi di apprendimento adattativi “senza parametri”, come l’approccio D-Adaptation, hanno guadagnato popolarità per l’ottimizzazione senza tassi di apprendimento.

Il team di ricerca del Samsung AI Center e Meta AI introduce due cambiamenti unici al metodo D-Adaptation chiamati Prodigy e Resetting per migliorare il tasso di convergenza non asintotico peggiore del metodo D-Adaptation, portando a tassi di convergenza più rapidi e migliori risultati di ottimizzazione.

Gli autori introducono due nuovi cambiamenti al metodo originale per migliorare il tasso di convergenza non asintotico peggiore del metodo D-Adaptation. Migliorano la velocità di convergenza dell’algoritmo e le prestazioni della qualità della soluzione regolando il metodo di tasso di apprendimento adattativo. Si stabilisce un limite inferiore per qualsiasi approccio che si adatti alla costante di distanza dalla soluzione D per verificare le modifiche proposte. Dimostrano inoltre che, rispetto ad altri metodi con una crescita delle iterazioni a crescita esponenziale, i metodi migliorati sono ottimali nel peggiore dei casi fino a fattori costanti. Sono quindi condotti test estesi per mostrare che i metodi di D-Adaptation migliorati regolano rapidamente il tasso di apprendimento, portando a tassi di convergenza superiori e risultati di ottimizzazione.

La strategia innovativa del team prevede l’aggiustamento del termine di errore di D-Adaptation con dimensioni di passo simili ad Adagrad. I ricercatori possono ora prendere passi più grandi con fiducia mantenendo comunque il termine di errore principale intatto, consentendo al metodo migliorato di convergere più rapidamente. L’algoritmo rallenta quando il denominatore nella dimensione del passo diventa troppo grande. Pertanto, aggiungono anche un peso accanto ai gradienti, nel caso.

I ricercatori hanno utilizzato le tecniche proposte per risolvere la regressione logistica convessa e le sfide di apprendimento serie nella loro indagine empirica. In diversi studi, Prodigy ha mostrato un’adozione più rapida di qualsiasi altro approccio conosciuto; D-Adaptation con resetting raggiunge lo stesso tasso teorico di Prodigy pur impiegando una teoria molto più semplice rispetto a Prodigy o D-Adaptation. Inoltre, i metodi proposti spesso superano l’algoritmo D-Adaptation e possono raggiungere un’accuratezza di test pari ad Adam sintonizzato manualmente.

Due metodi recentemente proposti hanno superato l’approccio di adattamento del tasso di apprendimento D-adaption di stato dell’arte. Evidenze sperimentali estese dimostrano che Prodigy, una variante pesata di D-Adaptation, è più adattabile rispetto agli approcci esistenti. Si dimostra che il secondo metodo, D-Adaptation con resetting, può eguagliare il ritmo teorico di Prodigy con una teoria molto meno complessa.