Questa ricerca sull’IA propone Strip-Cutmix un metodo di aumento dei dati più adatto per la riconoscibilità delle persone

This AI research proposes Strip-Cutmix, a more suitable data augmentation method for person recognition.

Nella visione artificiale, la ri-identificazione delle persone è una ricerca fondamentale nell’interconnesso mondo odierno. Comporta la sfida di identificare individui in diverse visuali di telecamere, spesso in condizioni non ideali. Tuttavia, per ottenere modelli di ri-identificazione accurati è necessario disporre di dati diversi e ben etichettati. Qui entra in gioco l’importanza dell’aumento dei dati. Le tecniche di aumento dei dati migliorano la qualità e la quantità dei dati disponibili, consentendo ai modelli di apprendere caratteristiche robuste e adattarsi a diversi scenari. 

Nella letteratura, sono impiegate varie tecniche di aumento dei dati per la ri-identificazione delle persone. Queste includono la cancellazione casuale, la ribaltamento orizzontale casuale, la generazione di campioni con occlusione, la creazione di immagini virtuali con diverse condizioni di illuminazione e persino approcci che coinvolgono reti generative avversarie (GAN). Tuttavia, metodi come Cutmix e mixup, che possono generare immagini di alta qualità, vengono raramente utilizzati a causa delle sfide nel adattarli al framework di perdita triplet per la ri-identificazione delle persone. 

Recentemente, un team di ricerca cinese ha pubblicato un nuovo articolo presentando una soluzione per incorporare il metodo di aumento dei dati Cutmix nella ri-identificazione delle persone. Gli autori hanno esteso la comunemente utilizzata perdita triplet per gestire etichette di similarità decimali, ottimizzando la similarità delle immagini. Hanno inoltre proposto Strip-Cutmix, una tecnica di aumento adatta alla ri-identificazione delle persone, e fornito strategie per la sua efficace applicazione in questo campo.

Nello specifico, l’articolo adatta la perdita triplet e il cutmix per affrontare questa sfida. Cutmix prevede di incollare parti di un’immagine su un’altra per creare una nuova immagine. Sebbene comunemente utilizzato, cutmix è raramente impiegato nella ri-identificazione delle persone a causa dell’incompatibilità con le etichette di similarità decimali che genera.

Per conciliare ciò, gli autori modificano la perdita triplet per adattarla alle etichette di similarità decimali, consentendo l’uso di cutmix insieme alla perdita triplet. La perdita triplet modificata regola dinamicamente la direzione dell’ottimizzazione in base alla similarità desiderata. Inoltre, le condizioni decisionali della perdita triplet vengono riscritte per allinearsi all’etichetta di similarità desiderata.

Nello specifico, gli autori estendono la perdita triplet per gestire etichette di similarità decimali, consentendo l’uso di cutmix nel contesto della ri-identificazione. Cutmix prevede tipicamente di ritagliare una parte di un’immagine e incollarla su un’altra immagine per creare una nuova immagine combinata. Tuttavia, la perdita triplet originale, che svolge un ruolo fondamentale nell’apprendimento metrico per la ri-identificazione delle persone, fatica con le etichette di similarità decimali generate da cutmix.

Per superare questa sfida, gli autori modificano dinamicamente la direzione dell’ottimizzazione della perdita triplet per gestire etichette decimali, rendendola compatibile sia con cutmix che con la perdita triplet originale. Introducono anche Strip-Cutmix che divide le immagini in blocchi orizzontali, sfruttando il fatto che le caratteristiche simili degli individui si trovano spesso nelle posizioni corrispondenti tra le immagini. Questo approccio migliora la qualità delle immagini generate e porta a migliori condizioni di confine per la perdita triplet. Strip-Cutmix si differenzia dal cutmix standard enfatizzando il mescolamento basato sulla posizione e i blocchi di immagini, consentendo di ottenere etichette di similarità tra immagini combinate.

In termini pratici, la soluzione prevede:

  • La modifica della perdita triplet per gestire etichette decimali.
  • L’introduzione della tecnica Strip-Cutmix.
  • La determinazione dello schema ottimale per l’applicazione di Strip-Cutmix durante l’addestramento.

È stato condotto uno studio sperimentale per valutare l’efficacia del metodo proposto. Gli esperimenti sono stati condotti sui dataset Market-1501, DukeMTMC-ReID e MSMT17. La media della precisione media (mAP) e le caratteristiche di corrispondenza cumulative (CMC) sono state utilizzate per la valutazione.

I ricercatori hanno selezionato ResNet-50 come base. I risultati hanno mostrato che il metodo proposto ha superato gli altri, ottenendo i migliori risultati con le basi ResNet-50 e RegNetY-1.6GF. Inoltre, la tecnica ha mostrato resistenza all’overfitting, raggiungendo prestazioni all’avanguardia. Complessivamente, il metodo ha dimostrato una superiorità costante, migliorando le attività di ri-identificazione delle persone nei dataset.

In conclusione, l’articolo qui studiato introduce un approccio per incorporare la tecnica di aumento dei dati cutmix nella ri-identificazione delle persone. La perdita triplet esistente utilizzata nella ri-identificazione delle persone è stata estesa per adattarsi alle etichette di similarità decimali, garantendo la compatibilità durante la gestione di questa nuova forma. Inoltre, è stata introdotta una nuova tecnica chiamata strip-cutmix, appositamente progettata per le attività di ri-identificazione delle persone. Investigando lo schema di utilizzo ottimale per strip-cutmix, gli autori hanno identificato l’approccio più efficace. Questo metodo proposto supera altri modelli di ri-identificazione delle persone basati su reti neurali convoluzionali, offrendo prestazioni ottimali all’interno di un framework di rete convoluzionale pura.