Incontra Semantic-SAM un modello universale di segmentazione delle immagini che segmenta e riconosce oggetti a qualsiasi grado di dettaglio desiderato in base all’input dell’utente.
Incontra Semantic-SAM, un modello universale per segmentare e riconoscere oggetti nelle immagini con il dettaglio desiderato dall'utente.
L’Intelligenza Artificiale è progredita notevolmente negli ultimi tempi. Il suo sviluppo attuale, ossia l’introduzione di Large Language Models, ha attirato l’attenzione di tutti grazie alle sue incredibili capacità di imitazione umana. Non solo l’elaborazione del linguaggio, questi modelli hanno ottenuto successi anche nel campo della visione artificiale. Nonostante il successo dei sistemi di intelligenza artificiale nel trattamento del linguaggio naturale e nella generazione controllata di immagini sia notevole, il campo della comprensione delle immagini a livello di pixel, compresa la segmentazione universale delle immagini, presenta ancora alcune limitazioni.
La segmentazione delle immagini, che è la tecnica di suddivisione di un’immagine in diverse sezioni, ha mostrato grandi miglioramenti, ma la creazione di un modello universale di segmentazione dell’immagine in grado di gestire una varietà di immagini con diverse granularità è ancora oggetto di discussione. I due principali sfide per progredire in questo settore sono la disponibilità di dati di addestramento adeguati e le restrizioni sulla flessibilità della progettazione del modello. I metodi esistenti utilizzano spesso un flusso di lavoro input-output singolo che non può prevedere maschere di segmentazione a varie granularità e gestire livelli di dettaglio. Inoltre, è costoso scalare i set di dati di segmentazione con conoscenze semantiche e di granularità.
Per affrontare queste limitazioni, un team di ricercatori ha introdotto Semantic-SAM, un modello universale di segmentazione delle immagini che segmenta e riconosce oggetti con qualsiasi granularità desiderata in base all’input dell’utente. Il modello è in grado di fornire etichette semantiche sia per gli oggetti che per le parti e predice maschere a varie granularità in risposta a un clic dell’utente. L’architettura del decoder di Semantic-SAM incorpora una strategia di apprendimento a scelta multipla per dare al modello la capacità di gestire diverse granularità. Ogni clic è rappresentato da numerose query, ciascuna delle quali ha un diverso livello di embedding. Le query vengono addestrate per apprendere dalle maschere ground-truth con diverse granularità.
- Conosci AudioGPT un sistema AI multi-modale che collega ChatGPT con modelli di base audio
- Ricercatori di UC Berkeley propongono FastRLAP un sistema per imparare la guida ad alta velocità tramite Deep RL (Reinforcement Learning) e pratica autonoma
- Non commettere questi errori nello sviluppo dell’AI
Il team ha condiviso come Semantic-SAM affronta il problema della consapevolezza semantica utilizzando una strategia di categorizzazione disaccoppiata per parti e oggetti. Il modello codifica separatamente oggetti e parti utilizzando un codificatore di testo condiviso, consentendo procedure di segmentazione distinte mentre si modifica la funzione di perdita in base al tipo di input. Questa strategia garantisce che il modello possa gestire i dati provenienti dal dataset SAM, che manca di alcune etichette di categorizzazione, così come i dati provenienti da dati di segmentazione generici.
Il team ha combinato sette dataset che rappresentano varie granularità al fine di migliorare la semantica e la granularità, tra cui il dataset SA-1B, dataset di segmentazione delle parti come PASCAL Part, PACO e PartImagenet e dataset di segmentazione generici come MSCOCO e Objects365. I formati dei dati sono stati riorganizzati per rispondere agli obiettivi di addestramento di Semantic-SAM.
Al termine dell’evaluazione e dei test, Semantic-SAM ha dimostrato prestazioni superiori rispetto ai modelli esistenti. Le prestazioni migliorano significativamente quando vengono utilizzate tecniche di segmentazione interattiva come la segmentazione promptable SA-1B e la segmentazione panottica COCO in congiunzione con l’addestramento. Il modello raggiunge un notevole aumento di 2,3 box AP e 1,2 mask AP. Inoltre, si comporta meglio di SAM di più di 3,4 1-IoU in termini di completezza di granularità.
Semantic-SAM è sicuramente un progresso innovativo nel campo della segmentazione delle immagini. Questo modello crea nuove opportunità per l’analisi delle immagini a livello di pixel unendo rappresentazione universale, consapevolezza semantica e abbondanza di granularità.