Incontra FastSAM La soluzione innovativa in tempo reale che raggiunge una segmentazione ad alta performance con un carico computazionale minimo.

FastSAM è una soluzione innovativa in tempo reale che offre una segmentazione ad alta performance con un carico computazionale minimo.

Il Modello Segment Anything (SAM) è una proposta più recente nel campo. È un concetto fondamentale della visione che è stato accolto come una svolta. Può utilizzare molteplici possibili stimoli di coinvolgimento dell’utente per segmentare con precisione qualsiasi oggetto nell’immagine. Utilizzando un modello Transformer che è stato ampiamente addestrato sul dataset SA-1B, SAM può gestire facilmente una vasta varietà di situazioni e oggetti. In altre parole, Segment Anything è ora possibile grazie a SAM. Questo compito ha il potenziale per servire come base per una vasta varietà di sfide future della visione grazie alla sua generalità.

Nonostante questi miglioramenti e i risultati promettenti di SAM e dei modelli successivi nel gestire il compito di segmentazione di qualsiasi cosa, le sue implementazioni pratiche devono ancora essere migliorate. La sfida principale dell’architettura di SAM è l’elevato requisito di elaborazione dei modelli Transformer (ViT) contrapposto ai loro analoghi convoluzionali. La crescente domanda dalle applicazioni commerciali ha ispirato un team di ricercatori cinesi a creare una risposta in tempo reale al problema di segmentazione di qualsiasi cosa; i ricercatori lo chiamano FastSAM.

Per risolvere questo problema, i ricercatori hanno diviso il compito di segmentazione di qualsiasi cosa in due parti: segmentazione di tutte le istanze e selezione guidata da prompt. Il primo passo dipende dall’utilizzo di un rilevatore basato su una rete neurale convoluzionale (CNN). Vengono generate maschere di segmentazione per ogni istanza nell’immagine. Il secondo stadio mostra quindi la regione di interesse corrispondente all’input. Mostrano che è possibile creare un modello in tempo reale per qualsiasi segmento di dati arbitrari utilizzando l’efficienza computazionale delle reti neurali convoluzionali (CNN). Credono anche che il loro approccio possa aprire la strada all’uso diffuso del processo di segmentazione fondamentale in ambienti commerciali.

Utilizzando l’approccio YOLACT, YOLOv8-seg è un rilevatore di oggetti che forma la base del nostro proposto FastSAM. I ricercatori utilizzano anche il completo dataset SA-1B di SAM. Questo rilevatore CNN raggiunge prestazioni paragonabili a SAM nonostante sia stato addestrato direttamente utilizzando solo il 2% (1/50) del dataset SA-1B, consentendo l’applicazione in tempo reale nonostante significative limitazioni computazionali e di risorse. Dimostrano anche le sue prestazioni di generalizzazione applicandolo a varie attività di segmentazione.

Il modello di segmentazione di qualsiasi cosa in tempo reale ha applicazioni pratiche nell’industria. Ha una vasta gamma di possibili utilizzi. Il metodo proposto non offre solo una risposta innovativa e attuabile a una vasta gamma di compiti di visione, ma anche ad alta velocità, spesso decine o centinaia di volte più veloce rispetto agli approcci convenzionali. Sono anche benvenute le nuove prospettive che offre sull’architettura di modelli di grandi dimensioni per problemi di visione generale. La nostra ricerca suggerisce che ci sono ancora casi in cui modelli specializzati offrono il miglior equilibrio tra efficienza e accuratezza. Il nostro metodo dimostra quindi la fattibilità di un percorso che, inserendo un elemento artificiale prima della struttura, può minimizzare notevolmente il costo computazionale necessario per eseguire il modello.

Il team riassume le sue principali contribuzioni come segue:

  • Il problema di Segment Anything viene affrontato introducendo un metodo rivoluzionario in tempo reale basato su CNN che diminuisce drasticamente i requisiti di elaborazione senza sacrificare le prestazioni.
  • In questo articolo vengono mostrate le potenzialità dei modelli leggeri di CNN in compiti di visione complessi, inclusa la prima ricerca sull’applicazione di un rilevatore CNN al problema di segmentazione di qualsiasi cosa.
  • I meriti e i limiti del metodo proposto nel dominio di segmentazione di qualsiasi cosa vengono rivelati attraverso un confronto con SAM su vari benchmark.

In generale, il FastSAM proposto corrisponde alle prestazioni di SAM, ma è rispettivamente 50 volte e 170 volte più veloce nell’esecuzione. La sua rapida esecuzione potrebbe beneficiare delle applicazioni industriali, come l’identificazione degli ostacoli stradali, il tracciamento delle istanze video e la modifica delle immagini. FastSAM può produrre maschere di alta qualità per oggetti di grandi dimensioni in alcune foto. Il FastSAM proposto può soddisfare l’operazione di segmentazione in tempo reale selezionando oggetti di interesse resilienti ed efficienti da un’immagine segmentata. Hanno condotto un’indagine empirica confrontando FastSAM con SAM su quattro compiti zero-shot: riconoscimento dei bordi, generazione di proposte, segmentazione delle istanze e localizzazione con prompt di testo. I risultati mostrano che FastSAM è 50 volte più veloce di SAM-ViT-H in termini di tempo di esecuzione e può elaborare efficientemente molti compiti successivi in tempo reale.