Meta AI presenta EfficientSAM il piccolo fratello di SAM con 20 volte meno parametri e un tempo di esecuzione 20 volte più veloce

Meta AI presenta EfficientSAM il fratellino di SAM con un ridotto numero di parametri, ma con un tempo di esecuzione 20 volte più veloce

Nella visione, il Modello Segment Anything (SAM) ha ottenuto un notevole successo, raggiungendo risultati all’avanguardia in numerosi compiti di segmentazione delle immagini, tra cui la generazione di proposte di oggetti senza alcuna istanza di riferimento, la segmentazione delle istanze senza alcuna istanza di riferimento e la rilevazione dei bordi, tra altre applicazioni pratiche.

Il dataset visivo SA-1B, che contiene oltre un miliardo di maschere da undici milioni di foto, è la base del modello Vision Transformer (ViT) di SAM. Ciò consente la segmentazione di qualsiasi elemento in un’immagine data. Grazie alla sua capacità di segmentare qualsiasi cosa, SAM non è solo un modello fondamentale nella visione, ma le sue applicazioni si estendono anche al di fuori della visione.

Nonostante questi vantaggi, il costo proibitivo dell’architettura SAM – in particolare dell’encoder delle immagini, come il ViT-H – rende il modello SAM un ostacolo all’adozione pratica in termini di efficienza.

In risposta a questa difficoltà, diverse pubblicazioni recenti hanno offerto soluzioni che riducono l’onere finanziario dell’utilizzo di SAM per la segmentazione delle istanze basata su prompt.

Ad esempio, un piccolo encoder di immagini ViT potrebbe beneficiare dell’esperienza dell’encoder di immagini ViT-H predefinito, secondo ricerche precedenti. Un design basato su CNN in tempo reale può ridurre i costi di calcolo per l’attività di Segment Anything. Si suggerisce qui l’utilizzo di un leggero encoder di immagini ViT, come ViT-Tiny/-Small, per semplificare SAM senza sacrificare le prestazioni.

Una nuova ricerca Meta AI crea le basi leggere preaddestrate di ViT per ogni compito utilizzando la nostra tecnologia, la segmentazione delle immagini mascherate supportate da SAM (SAMI). Per fare ciò, i ricercatori stabiliscono encoder ViT preaddestrati di alta qualità utilizzando il rinomato metodo di preformazione MAE con il modello SAM.

Per essere più precisi, il SAMI proposto addestra un modello di immagine mascherata utilizzando encoder leggeri per ricostruire le caratteristiche dal ViT-H di SAM anziché dalle patches delle immagini, e utilizza l’encoder SAM, ViT-H, per fornire embedding delle caratteristiche. Ciò produce delle basi generiche di ViT che possono essere utilizzate per operazioni successive come la categorizzazione delle immagini, l’identificazione degli oggetti e la segmentazione. Successivamente, i basi leggere preaddestrate degli encoder sono state sintonizzate per il segmento e per qualsiasi compito utilizzando gli decoder SAM.

Le squadre forniscono anche EfficientSAMs, modelli SAM leggeri con compensi qualità-efficienza all’avanguardia per l’implementazione nel mondo reale.

Il team ha preaddestrato i modelli su ImageNet con una perdita ricostruttiva utilizzando 224 × 224 di risoluzione dell’immagine e successivamente li ha sintonizzati sui compiti target utilizzando dati supervisionati per valutare la loro strategia in un contesto di apprendimento di trasferimento per la preformazione delle immagini mascherate. SAMI può apprendere gli encoder leggeri generalizzabili. I modelli addestrati su ImageNet-1K utilizzando la preformazione SAMI si comportano meglio in termini di generalizzazione, come ViT-Tiny/-Small/-Base. Quando sintonizzati su ImageNet-1K con 100 epoche, raggiungono un’accuratezza di 82,7% top-1 per un modello ViT-Small, che è migliore rispetto ad altre basi di preformazione di immagini all’avanguardia. La rilevazione degli oggetti, la segmentazione delle istanze e la segmentazione semantica sono aree in cui il team raffina ulteriormente i loro modelli preaddestrati.

Rispetto alle basi di preformazione esistenti, la loro strategia li supera in questi compiti. Inoltre, anche per modelli più piccoli, si osservano miglioramenti sostanziali. Inoltre, la sfida Segment Anything viene utilizzata per valutare i nostri modelli. Il modello supera FastSAM e gli algoritmi SAM leggeri attuali nella segmentazione delle istanze senza alcuna istanza di riferimento di 4,1AP/5,2 AP su COCO/LVIS.