Ricercatori del MIT introducono una nuova attenzione multi-scala leggera per la segmentazione semantica su dispositivo

MIT researchers introduce a new lightweight multi-scale attention for on-device semantic segmentation.

L’obiettivo della segmentazione semantica, un problema fondamentale nella visione artificiale, è classificare ogni pixel nell’immagine di input con una determinata classe. Guida autonoma, elaborazione di immagini mediche, fotografia computazionale, ecc., sono solo alcuni contesti del mondo reale in cui la segmentazione semantica può essere utile. Pertanto, c’è una forte domanda di installazione di modelli di segmentazione semantica SOTA sui dispositivi edge per beneficiare vari consumatori. Tuttavia, i modelli di segmentazione semantica SOTA hanno requisiti di elaborazione elevati che i dispositivi edge non possono soddisfare. Ciò impedisce l’utilizzo di questi modelli sui dispositivi edge. La segmentazione semantica, in particolare, è un esempio di una sfida di previsione densa che richiede immagini ad alta risoluzione e una robusta capacità di estrazione delle informazioni di contesto. Pertanto, trasferire l’efficace architettura del modello utilizzata nella classificazione delle immagini e applicarla alla segmentazione semantica è inappropriato.

Quando viene chiesto di classificare i milioni di singoli pixel in un’immagine ad alta risoluzione, i modelli di apprendimento automatico affrontano una sfida considerevole. Di recente si è sviluppato un uso altamente efficace di un nuovo tipo di modello chiamato vision transformer.

L’obiettivo originale dei transformer era quello di migliorare l’efficienza del NLP per le lingue. In tale contesto, vengono suddivise le parole in una frase e viene creata una rete che mostra come tali parole sono connesse. La mappa di attenzione migliora la capacità del modello di comprendere il contesto.

Per generare una mappa di attenzione, un vision transformer utilizza la stessa idea, suddividendo un’immagine in patch di pixel e codificando ogni piccola patch in un token. Il modello utilizza una funzione di similarità che apprende l’interazione diretta tra ogni coppia di pixel per generare questa mappa di attenzione. In questo modo, il modello crea un “campo di ricezione globale”, permettendogli di percepire tutti i dettagli importanti nell’immagine.

La mappa di attenzione cresce rapidamente poiché un’immagine ad alta risoluzione può includere milioni di pixel divisi in migliaia di patch. Di conseguenza, il calcolo richiesto per elaborare un’immagine con risoluzione crescente aumenta in modo quadratico.

Il team del MIT ha sostituito la funzione di similarità non lineare con una lineare per semplificare il metodo utilizzato per costruire la mappa di attenzione nella loro nuova serie di modelli, chiamata EfficientViT. Grazie a ciò, l’ordine in cui vengono eseguite le operazioni può essere modificato per ridurre il numero di calcoli richiesti senza compromettere la funzionalità o il campo di ricezione globale, e con il loro approccio, la quantità di tempo di elaborazione necessario per fare una previsione scala linearmente con il numero di pixel dell’immagine di input.

I nuovi modelli della famiglia EfficientViT eseguono la segmentazione semantica localmente sul dispositivo. EfficientViT è costruito attorno a un innovativo modulo leggero di attenzione multi-scala per un campo di ricezione globale e un apprendimento multi-scala efficiente dal punto di vista hardware. Precedenti approcci per la segmentazione semantica hanno ispirato questo componente.

Il modulo è stato creato per fornire accesso a queste due funzionalità essenziali riducendo al minimo la necessità di operazioni hardware inefficienti. In particolare, proponiamo di sostituire l’auto-attenzione inefficiente con un’attenzione globale basata su ReLU per ottenere un campo di ricezione globale. La complessità computazionale dell’attenzione globale basata su ReLU può essere ridotta da quadratica a lineare sfruttando la proprietà associativa della moltiplicazione tra matrici. E poiché non utilizza algoritmi intensivi in termini di hardware come softmax, è più adatto alla segmentazione semantica sul dispositivo.

I popolari dataset di benchmark per la segmentazione semantica come Cityscapes e ADE20K sono stati utilizzati per condurre valutazioni approfondite di EfficientViT. Rispetto ai modelli di segmentazione semantica SOTA precedenti, EfficientViT offre miglioramenti significativi delle prestazioni.

Ecco una sintesi dei contributi:

  • I ricercatori hanno sviluppato un rivoluzionario modulo leggero di attenzione multi-scala per eseguire la segmentazione semantica localmente sul dispositivo. Si comporta bene sui dispositivi edge implementando un campo di ricezione globale e un apprendimento multi-scala.
  • I ricercatori hanno sviluppato una nuova famiglia di modelli chiamata EfficientViT basata sul proposto modulo leggero di attenzione multi-scala.
  • Il modello mostra un significativo aumento di velocità sui dispositivi mobili rispetto ai modelli di segmentazione semantica SOTA precedenti sui principali dataset di benchmark per la segmentazione semantica come ImageNet.

In conclusione, i ricercatori del MIT hanno introdotto un modulo leggero di attenzione multi-scala che raggiunge un campo di ricezione globale e un apprendimento multi-scala con operazioni leggere ed efficienti dal punto di vista hardware, offrendo quindi un aumento significativo di velocità sui dispositivi edge senza perdita di prestazioni rispetto ai modelli di segmentazione semantica SOTA. I modelli EfficientViT verranno ulteriormente scalati e il loro potenziale per l’uso in altre attività di visione sarà investigato in ulteriori ricerche.