Questo articolo AI presenta EdgeSAM avanzare l’apprendimento automatico per la segmentazione efficiente ad alta velocità delle immagini su dispositivi Edge

EdgeSAM l'avanzamento dell'apprendimento automatico per una segmentazione efficiente e ad alta velocità delle immagini su dispositivi Edge

Il Segment Anything Model (SAM) è un modello basato su intelligenza artificiale che segmenta le immagini per la rilevazione e il riconoscimento degli oggetti. È una soluzione efficace per vari compiti di visione artificiale. Tuttavia, SAM non è ottimizzato per i dispositivi edge, il che può comportare una performance rallentata e un elevato consumo di risorse. Ricercatori di S-Lab Nanyang Technological University e Shanghai Artificial Intelligence Laboratory hanno sviluppato EdgeSAM per affrontare questo problema. Questa versione ottimizzata di SAM è progettata per garantire una performance migliorata senza sacrificare l’accuratezza su dispositivi edge con risorse limitate.

Lo studio si concentra sulla progettazione di CNN e transformer efficienti per l’apprendimento della rappresentazione visiva, una direzione esplorata in precedenti ricerche. Riconosce l’applicazione della distillazione della conoscenza in compiti di previsione densa come la segmentazione semantica e il rilevamento degli oggetti dagli studi precedenti. I lavori correlati includono Mobile-SAM, che implementa la distillazione delle caratteristiche a livello di pixel, e Fast-SAM, che addestra un modello di segmentazione delle istanze basato su YOLACT. Vengono evidenziati studi precedenti che affrontano la segmentazione efficiente all’interno di domini specifici e gli sforzi recenti che esplorano modelli di segmentazione adatti all’implementazione on-device su piattaforme mobili.

La ricerca affronta la sfida di implementare il computazionalmente impegnativo SAM su dispositivi edge, come gli smartphone, per la segmentazione interattiva in tempo reale. Introducendo EdgeSAM, una variante ottimizzata di SAM, si riesce ad ottenere un’operazione in tempo reale sui dispositivi edge mantenendo l’accuratezza. EdgeSAM utilizza un approccio di distillazione della conoscenza sensibile al prompt allineando le maschere di output di SAM e introduce prompt personalizzati per il decodificatore maschera. Con una struttura di base basata esclusivamente su CNN adatta agli acceleratori IA on-device, EdgeSAM supera Mobile-SAM, ottenendo un significativo aumento di velocità rispetto all’SAM originale per l’implementazione edge in tempo reale.

EdgeSAM è progettato per una esecuzione efficiente su dispositivi edge senza compromettere significativamente le prestazioni. EdgeSAM distilla l’encoder di immagini SAM basato su ViT in un’architettura basata su CNN adatta ai dispositivi edge. Per catturare completamente la conoscenza di SAM, la ricerca incorpora la distillazione dell’encoder del prompt e del decodificatore della maschera con prompt box e point all’interno del ciclo. Viene aggiunto un modulo leggero per affrontare i problemi di bias del dataset. La valutazione include indagini sulla distillazione della conoscenza con prompt all’interno del ciclo e l’impatto di una lightweight Region Proposal Network con priorità di granularità attraverso studi di ablation.

EdgeSAM ottiene un notevole aumento di velocità di 40 volte rispetto all’SAM originale, superando Mobile-SAM 14 volte quando viene implementato su dispositivi edge. Supera costantemente Mobile-SAM in diverse combinazioni di prompt e dataset, dimostrando la sua efficacia per applicazioni reali. EdgeSAM, ottimizzato per l’implementazione edge, è oltre 40 volte più veloce su NVIDIA 2080 Ti e circa 14 volte più veloce su un iPhone 14 rispetto all’SAM e a Mobile-SAM rispettivamente. La distillazione della conoscenza con prompt all’interno del ciclo e la lightweight Region Proposal Network introdotta migliorano significativamente le prestazioni.

In conclusione, i punti salienti della ricerca possono essere riassunti nei seguenti punti:

  • EdgeSAM è una variante ottimizzata di SAM.
  • È progettato per essere implementato su dispositivi edge come smartphone in tempo reale.
  • Rispetto all’SAM originale, EdgeSAM è 40 volte più veloce.
  • Supera Mobile-SAM di 14 volte su dispositivi edge.
  • Migliora significativamente i mIoU sui dataset COCO e LVIS.
  • EdgeSAM integra una strategia dinamica di distillazione della conoscenza con prompt all’interno del ciclo e un modulo leggero per affrontare il bias del dataset.
  • Lo studio esplora varie configurazioni di addestramento, tipi di prompt e approcci di congelamento.
  • È stata introdotta anche una lightweight Region Proposal Network, sfruttando le priorità di granularità.