Microsoft Research presenta SpaceEvo una svolta nel design di reti neurali ultra-efficienti e quantizzate per dispositivi reali

Microsoft Research presenta SpaceEvo una rivoluzione nel design di reti neurali ultra-efficienti e quantizzate per dispositivi reali

Nel campo del deep learning, la sfida dello sviluppo di modelli di reti neurali profonde efficienti (DNN) che combinino elevate prestazioni con una latenza minima su una varietà di dispositivi rimane. L’approccio esistente prevede l’utilizzo di hardware-aware neural architecture search (NAS) per automatizzare la progettazione di modelli per configurazioni hardware specifiche, inclusi uno spazio di ricerca predefinito e un algoritmo di ricerca. Tuttavia, questo approccio tende a trascurare l’ottimizzazione dello spazio di ricerca stesso.

In risposta a ciò, un team di ricerca ha introdotto un nuovo metodo chiamato “SpaceEvo” per creare automaticamente spazi di ricerca specializzati adattati all’inferenza INT8 efficiente su piattaforme hardware specifiche. Ciò che distingue SpaceEvo è la sua capacità di eseguire questo processo di progettazione in modo automatico, portando a spazi di ricerca NAS specifici per l’hardware e adatti alla quantizzazione.

Il design leggero di SpaceEvo lo rende pratico, richiedendo solo 25 ore di GPU per creare soluzioni specifiche per l’hardware, il che lo rende conveniente. Questo spazio di ricerca specializzato, con operatori e configurazioni preferiti dall’hardware, consente l’esplorazione di modelli più efficienti con bassa latenza INT8, superando costantemente le alternative esistenti.

I ricercatori hanno condotto un’analisi approfondita dei fattori di latenza quantizzata INT8 su due dispositivi ampiamente utilizzati, rivelando che la scelta del tipo di operatore e delle configurazioni influisce significativamente sulla latenza INT8. SpaceEvo tiene conto di queste scoperte, creando una popolazione diversificata di architetture accurate e amiche della latenza INT8 all’interno dello spazio di ricerca. Incorpora un algoritmo di ricerca evolutivo, il punteggio Q-T come metrica, algoritmi di ricerca ridisegnati e uno schema di quantizzazione dello spazio di ricerca a blocchi.

Il processo NAS a due stadi garantisce che i modelli candidati possano raggiungere una precisione quantizzata comparabile senza un aggiustamento o una quantizzazione individuali. Esperimenti estesi su dispositivi del mondo reale e ImageNet dimostrano che SpaceEvo supera costantemente gli spazi di ricerca progettati manualmente, stabilendo nuovi punti di riferimento per il trade-off tra precisione e latenza quantizzate INT8.

In conclusione, SpaceEvo rappresenta un significativo progresso nella ricerca di modelli di deep learning efficienti per diversi dispositivi del mondo reale. Il suo design automatico di spazi di ricerca amichevoli per la quantizzazione ha il potenziale per migliorare la sostenibilità delle soluzioni di edge computing. I ricercatori pianificano di adattare questi metodi a varie architetture di modelli come i transformers, espandendo ulteriormente il loro ruolo nella progettazione e nell’implementazione efficiente di modelli di deep learning.