Incontra DiffusionDet un modello di Intelligenza Artificiale (IA) che utilizza la diffusione per la rilevazione degli oggetti
Incontra DiffusionDet, un modello di IA che utilizza la diffusione per rilevare gli oggetti.
La rilevazione degli oggetti è una potente tecnica per identificare oggetti nelle immagini e nei video. Grazie all’apprendimento profondo e ai progressi nella visione artificiale, ha compiuto grandi progressi negli ultimi anni. Ha il potenziale per rivoluzionare una vasta gamma di settori, dal trasporto alla sicurezza, dalla sanità al commercio al dettaglio. Con il continuo miglioramento della tecnologia, possiamo aspettarci ancora più sviluppi entusiasmanti nel campo della rilevazione degli oggetti.
Una delle principali sfide nella rilevazione degli oggetti è la capacità di localizzare accuratamente gli oggetti in un’immagine. Ciò implica l’identificazione della presenza di un oggetto e la determinazione della sua posizione e dimensione precise.
La maggior parte dei rilevatori di oggetti utilizza una combinazione di tecniche di regressione e classificazione per identificare gli oggetti nelle immagini. Questo viene di solito fatto guardando aree specifiche dell’immagine, come finestre scorrevoli o proposte di regione, e utilizzando queste come “guide” per aiutare a identificare gli oggetti. Altri metodi, come le caselle di ancoraggio o i punti di riferimento, possono anche aiutare nella rilevazione degli oggetti.
- Utilizzo dei Computer Analogici nell’Intelligenza Artificiale (IA)
- Ricercatori di Salesforce AI e dell’Università di Columbia presentano DialogStudio una collezione unificata e diversificata di 80 set di dati di dialogo che mantengono le loro informazioni originali.
- Ricercatori di Intelligenza Artificiale (IA) dell’Università di Cornell propongono un nuovo framework di rete neurale per affrontare il problema del video matting
Anche se queste tecniche per la rilevazione degli oggetti sono relativamente semplici ed efficaci, si basano su un insieme fisso di criteri di ricerca predefiniti. Spesso è necessario definire un insieme di oggetti candidati. Tuttavia, può essere impegnativo definire tutti questi criteri predefiniti. Esiste un modo per semplificare ulteriormente il processo senza la necessità di queste linee guida di ricerca predefinite?
La risposta dei ricercatori di Tencent è stata proporre il DiffusionDet, un modello di diffusione da utilizzare nella rilevazione degli oggetti.
I modelli di diffusione sono stati al centro dell’attenzione della comunità di intelligenza artificiale negli ultimi mesi, principalmente grazie al rilascio pubblico del modello di diffusione stabile. Per spiegarlo in modo semplice, i modelli di diffusione prendono in input il rumore e lo denoisano gradualmente, seguendo determinate regole fino a ottenere un output desiderabile. Nel contesto della diffusione stabile, l’input era un’immagine rumorosa ottenuta dal prompt di testo e viene denoisata lentamente fino a ottenere un’immagine simile al prompt di testo fornito.
Quindi, come può essere utilizzato l’approccio di diffusione per la rilevazione degli oggetti? Non siamo interessati a generare qualcosa di nuovo; invece, vogliamo conoscere gli oggetti in un’immagine data. Come lo hanno fatto?
In DiffusionDet, è stato progettato un nuovo framework per rilevare oggetti direttamente da un insieme di caselle casuali. Queste caselle, che non contengono parametri apprendibili che devono essere ottimizzati durante l’addestramento, si prevede che migliorino gradualmente le loro posizioni e dimensioni fino a coprire accuratamente gli oggetti target attraverso l’approccio rumore-a-casella.
Pensa alle caselle come al rumore di input e il vincolo qui è che dovrebbero contenere un oggetto. Quindi, alla fine, vogliamo ottenere un insieme di caselle che contengono diversi oggetti. La fase di denoising sta cambiando gradualmente le dimensioni e le posizioni delle caselle. In questo approccio non sono richiesti priori oggettivi e query apprendibili, il che semplifica l’individuazione dei candidati oggetto e favorisce lo sviluppo del pipeline di rilevamento.
DiffusionDet considera la rilevazione degli oggetti come un compito generativo che coinvolge le posizioni e le dimensioni delle caselle di delimitazione in un’immagine. Durante l’addestramento, viene aggiunto rumore controllato da un programma di varianza alle caselle di delimitazione di verità per creare caselle rumorose, che vengono poi utilizzate per ritagliare le caratteristiche dalla mappa di caratteristiche di output del codificatore principale. Queste caratteristiche vengono quindi inviate al decodificatore di rilevamento, che viene addestrato per prevedere le caselle di delimitazione di verità senza rumore. Ciò consente a DiffusionDet di prevedere le caselle di delimitazione di verità a partire da caselle casuali. Al momento dell’infrazione, DiffusionDet genera caselle di delimitazione invertendo il processo di diffusione appreso e regolando una distribuzione di priori rumorosa alla distribuzione appresa sulle caselle di delimitazione.