Incontra CutLER (Cut-and-LEaRn) Un semplice approccio di intelligenza artificiale per addestrare modelli di rilevamento oggetti e segmentazione istantanea senza annotazioni umane.
Incontra CutLER un approccio di intelligenza artificiale per addestrare modelli di rilevamento oggetti e segmentazione istantanea senza annotazioni umane.
La rilevazione degli oggetti e la segmentazione delle immagini sono compiti cruciali nella computer vision e nell’intelligenza artificiale. Sono fondamentali in numerose applicazioni, come veicoli autonomi, imaging medico e sistemi di sicurezza.
La rilevazione degli oggetti consiste nel rilevare le istanze degli oggetti all’interno di un’immagine o di un flusso video. Si tratta di identificare la classe dell’oggetto e la sua posizione all’interno dell’immagine. L’obiettivo è produrre un bounding box intorno all’oggetto, che può poi essere utilizzato per ulteriori analisi o per tracciare l’oggetto nel tempo in un flusso video. Gli algoritmi di rilevazione degli oggetti possono essere divisi in due categorie: metodi a un livello e metodi a due livelli. I metodi a un livello sono più veloci ma meno accurati, mentre i metodi a due livelli sono più lenti ma più accurati.
D’altra parte, la segmentazione delle immagini consiste nel suddividere un’immagine in segmenti o regioni multiple, dove ogni segmento corrisponde a un oggetto diverso o a una parte di un oggetto. L’obiettivo è etichettare ogni pixel dell’immagine con una classe semantica, come “persona”, “auto”, “cielo”, ecc. Gli algoritmi di segmentazione delle immagini possono essere divisi in due categorie: segmentazione semantica e segmentazione di istanze. La segmentazione semantica consiste nell’etichettare ogni pixel con un’etichetta di classe, mentre la segmentazione di istanze riguarda il rilevamento e la segmentazione di singoli oggetti all’interno di un’immagine.
- YOLOv7 L’algoritmo di rilevamento oggetti più avanzato?
- Addestramento con più GPU in PyTorch e Accumulazione del Gradiente come alternativa ad esso
- Interprete del codice GPT-4 La tua bacchetta magica per visualizzazioni istantanee dei dati in Python
Sia gli algoritmi di rilevazione degli oggetti che quelli di segmentazione delle immagini hanno fatto progressi significativi negli ultimi anni, principalmente grazie agli approcci di deep learning. Grazie alla loro capacità di apprendere rappresentazioni gerarchiche di input fotografici, le reti neurali convoluzionali (CNN) sono diventate l’opzione preferita per questi problemi. Tuttavia, l’addestramento di questi modelli richiede annotazioni specializzate come bounding box, maschere e punti localizzati, che sono sia complesse che richiedono molto tempo. Senza considerare gli overhead, l’annotazione manuale di 164.000 immagini nel dataset COCO con maschere per sole 80 classi ha richiesto più di 28.000 ore.
Con un’architettura innovativa chiamata Cut-and-LEaRn (CutLER), gli autori cercano di affrontare questi problemi studiando modelli di rilevazione degli oggetti non supervisionati e modelli di segmentazione di istanze che possono essere addestrati senza etichette umane. Il metodo consiste in tre meccanismi semplici e agnostici rispetto all’architettura e ai dati. Il flusso di lavoro per l’architettura proposta è rappresentato di seguito.
Gli autori di CutLER introducono prima MaskCut, uno strumento in grado di generare automaticamente diverse maschere iniziali approssimative per ogni immagine basandosi su caratteristiche calcolate da una visione transformer ViT pre-addestrata in modo auto-supervisionato. MaskCut è stato sviluppato per affrontare le limitazioni degli attuali strumenti di mascheratura, come Normalized Cuts (NCut). Infatti, le applicazioni di NCut sono limitate alla rilevazione di un singolo oggetto in un’immagine, il che può essere molto limitante. Per questo motivo, MaskCut lo estende per scoprire più oggetti per immagine applicando iterativamente NCut a una matrice di similarità mascherata.
In secondo luogo, gli autori implementano una semplice strategia di eliminazione delle perdite per addestrare i rilevatori utilizzando queste maschere grezze, che sono robuste agli oggetti che MaskCut ha perso. Nonostante siano addestrati con queste maschere approssimative, i rilevatori possono perfezionare la ground truth e produrre maschere (e bounding box) più accurate. Pertanto, più round di auto-addestramento sulle previsioni dei modelli possono consentire al modello di evolvere concentrandosi sulle similarità locali dei pixel per considerare la geometria complessiva degli oggetti, ottenendo maschere di segmentazione più precise.
La figura seguente offre un confronto tra il framework proposto e gli approcci state-of-the-art.
Questo è stato il riassunto di CutLER, un nuovo strumento di intelligenza artificiale per la rilevazione accurata e coerente degli oggetti e la segmentazione delle immagini.
Se sei interessato o desideri saperne di più su questo framework, puoi trovare un link all’articolo e alla pagina del progetto.