Segmenta qualsiasi cosa, ma più velocemente! Questo approccio di intelligenza artificiale accelera il modello SAM

Segmenta più velocemente con l'IA per accelerare SAM.

Trovare oggetti nelle immagini è da tempo un compito impegnativo nella visione artificiale. Gli algoritmi di rilevamento degli oggetti cercano di individuare gli oggetti disegnando un riquadro intorno ad essi, mentre gli algoritmi di segmentazione cercano di determinare con precisione i confini degli oggetti a livello di pixel. La segmentazione delle immagini mira a suddividere un’immagine in regioni o oggetti distinti in base al loro significato semantico o alle caratteristiche visive. È fondamentale in varie applicazioni, tra cui il riconoscimento degli oggetti, la comprensione delle scene, la guida autonoma, l’imaging medico e altro ancora.

Nel corso degli anni, sono stati sviluppati numerosi metodi e algoritmi per affrontare questo problema complesso. Gli approcci tradizionali utilizzano caratteristiche predefinite, e gli sviluppi più recenti ci hanno portato modelli basati sull’apprendimento approfondito. Questi metodi moderni hanno dimostrato un notevole progresso, raggiungendo prestazioni all’avanguardia e aprendo nuove possibilità nella comprensione e nell’analisi delle immagini.

Tuttavia, questi modelli avevano una limitazione fondamentale. Erano vincolati agli oggetti presenti nell’insieme di addestramento e non potevano segmentare gli oggetti rimanenti.

Poi è arrivato il Modello Segment Anything (SAM) che ha cambiato completamente il gioco della segmentazione delle immagini. È emerso come un modello visionario innovativo in grado di segmentare qualsiasi oggetto all’interno di un’immagine in base agli input interattivi dell’utente. È basato su un’architettura Transformer addestrata sull’ampio dataset SA-1B, ha dimostrato prestazioni notevoli e ha aperto le porte a un compito nuovo ed entusiasmante noto come Segment Anything. Con la sua generalità e il suo potenziale, ha il potenziale per diventare una pietra angolare per una vasta gamma di future applicazioni di visione.

Tuttavia, non tutto è perfetto riguardo a SAM. Questo tipo di potenza ha un costo, e per SAM è la complessità. Richiede troppo calcolo, rendendolo difficile da applicare in scenari pratici. I requisiti di risorse computazionali sono associati ai modelli di trasformazione, in particolare ai Vision Transformers (ViTs), che costituiscono il cuore dell’architettura di SAM.

C’è un modo per rendere SAM più veloce? La risposta è sì, e si chiama FastSAM.

FastSAM è stato proposto per soddisfare l’alta domanda di applicazioni industriali del modello SAM. Riesce ad accelerare l’esecuzione di SAM in modo significativo e consente di applicarlo in scenari pratici.

FastSAM accelera notevolmente SAM. Fonte: https://arxiv.org/pdf/2306.12156.pdf

FastSAM suddivide il compito di segmentare qualsiasi cosa in due fasi sequenziali: la segmentazione di tutte le istanze e la selezione guidata dagli input. La prima fase utilizza un rilevatore basato su una rete neurale convoluzionale (CNN) per produrre maschere di segmentazione per tutte le istanze nell’immagine. Nella seconda fase, vengono fornite le regioni di interesse corrispondenti agli input dell’utente. Utilizzando l’efficienza computazionale delle CNN, FastSAM dimostra la possibilità di un modello di segmentazione in tempo reale di qualsiasi cosa senza compromettere la qualità delle prestazioni.

Panoramica di FastSAM. Fonte: https://arxiv.org/pdf/2306.12156.pdf

FastSAM si basa su YOLOv8-seg, un rilevatore di oggetti dotato di un ramo di segmentazione delle istanze ispirato al metodo YOLACT. Allenando questo rilevatore CNN su soli il 2% del dataset SA-1B, FastSAM raggiunge prestazioni paragonabili a SAM riducendo drasticamente la richiesta computazionale. L’approccio proposto dimostra la sua efficacia in molteplici compiti di segmentazione successivi, inclusa la proposta di oggetti su MS COCO, dove FastSAM supera SAM in termini di Richiamo Medio a 1000 proposte, eseguendo 50 volte più velocemente su una singola scheda NVIDIA RTX 3090.