Sbloccare l’efficienza nei Vision Transformers come Sparse Mobile Vision MoEs superano le controparti dense nelle applicazioni con risorse limitate

Sbloccare l'efficienza nei Vision Transformers con Sparse Mobile Vision MoEs nelle applicazioni con risorse limitate

Un’architettura di rete neurale chiamata Mixture-of-Experts (MoE) combina le previsioni di varie reti neurali esperte. I modelli MoE affrontano lavori complicati in cui diverse sottoattività o elementi del problema richiedono conoscenze specialistiche. Sono stati introdotti per rafforzare le rappresentazioni delle reti neurali e consentire loro di gestire varie attività complesse.

Inoltre, un’architettura di rete neurale nota come sparsely-gated Mixture-of-Experts (MoE) espande l’idea dei modelli MoE convenzionali aggiungendo sparsità al meccanismo di gating. Questi modelli sono creati per aumentare l’efficienza e la scalabilità dei modelli MoE, consentendo loro di gestire lavori su larga scala riducendo i costi di calcolo.

Grazie alla loro capacità di attivare esclusivamente una piccola parte dei parametri del modello per ogni token di input fornito, possono separare la dimensione del modello dall’efficacia dell’inferenza.

È ancora difficile bilanciare sia le prestazioni che l’efficienza nell’uso delle reti neurali (NN), soprattutto quando sono disponibili poche risorse di calcolo. I modelli sparsely-gated Mixture-of-Experts (MoE) (MoEs sparsi), che consentono la separazione della dimensione del modello dall’efficacia dell’inferenza, sono stati recentemente considerati come una possibile soluzione.

I MoEs sparsi offrono la possibilità di aumentare le capacità del modello riducendo al minimo i costi di calcolo. Ciò li rende una scelta per l’integrazione con i Transformers, la scelta architettonica prevalente per il modellamento visivo su larga scala.

Di conseguenza, un team di ricerca di Apple ha introdotto il concetto di sparse Mobile Vision MoEs nel loro articolo intitolato Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts. Questi V-MoEs sono un efficiente e compatibile con i dispositivi mobili design Mixture-of-Experts che mantiene prestazioni notevoli ridimensionando i Vision Transformers (ViTs).

I ricercatori hanno sottolineato di aver sviluppato una procedura di addestramento semplice ma robusta in cui viene evitato lo squilibrio degli esperti sfruttando le super-classi semantiche per guidare l’addestramento del router. Utilizza un singolo router per immagine, a differenza del routing per patch. Nel routing tradizionale per patch, di solito vengono attivati più esperti per ogni immagine. Tuttavia, il router per immagini riduce il numero di esperti attivati per immagine.

Il team di ricerca ha avviato la fase di addestramento addestrando un modello di base. Le previsioni del modello sono state quindi registrate su un set di convalida trattenuto dal dataset di addestramento per creare una matrice di confusione. La matrice di confusione è stata quindi sottoposta a un algoritmo di clustering per grafi utilizzando questa matrice di confusione come base. Sono state create divisioni di super-classi come risultato di questo processo.

Hanno affermato che il modello presenta risultati empirici sul benchmark di classificazione standard ImageNet-1k. Tutti i modelli sono stati addestrati da zero sul set di addestramento ImageNet-1k di 1,28 milioni di immagini e successivamente è stata valutata la loro accuratezza al top-1 sul set di convalida di 50.000 immagini.

I ricercatori vogliono utilizzare il design MoE in altri modelli compatibili con i dispositivi mobili oltre ai ViTs in futuro. Vogliono anche prendere in considerazione altre attività visive, come il rilevamento degli oggetti. Inoltre, vogliono quantificare la latenza effettiva su dispositivo per tutti i modelli.