Questa ricerca AI propone l’utilizzo di Random Slices Mixing Data Augmentation (RSMDA) per una classificazione delle immagini superiore un nuovo approccio per migliorare la precisione e la robustezza delle reti neurali.

RSMDA Migliora la precisione e la robustezza delle reti neurali con la tecnica di Random Slices Mixing Data Augmentation per una classificazione delle immagini superiore.

La data augmentation è una tecnica critica nell’apprendimento profondo che consiste nel creare nuovi dati di addestramento modificando campioni esistenti. È fondamentale perché diversifica i dati di addestramento, migliorando la capacità del modello di generalizzare a nuovi, non visti esempi. La creazione di variazioni dei campioni esistenti previene l’overfitting e aiuta il modello a imparare caratteristiche più robuste e adattabili, fondamentali per predizioni accurate in scenari del mondo reale.

Un metodo popolare è la data augmentation basata su singola immagine, in cui sezioni di un’immagine vengono cancellate o modificate in modi diversi in modo casuale. Le tecniche all’avanguardia di data augmentation comprendono metodi di dropout come il dropout adattivo e il dropout spaziale, mirando a ridurre l’overfitting. Approcci basati su singola immagine come CutOut, Random Erasing (RE), Hide and Seek (HS) e GridMask modificano singole immagini per aumentare la robustezza, potenzialmente perdendo caratteristiche chiave. Metodi basati su più immagini come MixUp, CutMix, RICAP e IMEDA mescolano diverse immagini per diversificare i dataset e migliorare le prestazioni del modello.

In questo contesto, una nuova tecnica chiamata Random Slices Mixing Data Augmentation (RSMDA) è stata proposta da ricercatori della Dublin City University, UCD e University of Galway. RSMDA mira a superare le sfide delle tecniche di augmentation basate su singola immagine mescolando fette di immagini in modi diversi: verticalmente, orizzontalmente o in una combinazione di entrambi. RSMDA consiste nel combinare fette di una immagine con un’altra per generare una terza immagine, diversificando così il dataset di addestramento. Inoltre, questo metodo altera le etichette delle immagini originali per creare etichette aumentate per le nuove immagini, migliorando il processo di addestramento attraverso la riduzione dell’errore delle etichette.

Concretamente, RSMDA segue cinque passaggi:

  1. Selezione dei campioni di addestramento: vengono scelte due immagini e le rispettive etichette.
  2. Mescolaggio delle immagini: RSMDA combina parti di queste immagini per creare una nuova immagine. Utilizza una maschera binaria per selezionare e unire sezioni da ciascuna immagine.
  3. Regolazione delle etichette: le etichette delle immagini combinate vengono anche regolate in base a un rapporto scelto, assicurando che le etichette siano allineate con l’immagine combinata.
  4. Taglio e mescolamento: parti delle immagini vengono selezionate casualmente e mescolate per formare l’immagine combinata. RSMDA offre tre strategie per questo processo di mescolamento: per riga, per colonna o una combinazione di entrambi.
  5. Creazione di campioni aumentati: porzioni selezionate da una immagine vengono incollate su un’altra immagine in base alla strategia di mescolamento scelta. Questo processo genera nuove coppie immagine-etichetta utilizzate per l’addestramento.

RSMDA è stato sottoposto ad approfondite valutazioni su diversi dataset e architetture di rete. Durante gli esperimenti, RSMDA ha esplorato varie strategie, inclusa RSMDA(R), che indica Random Slices Mixing Row-wise. Questa specifica strategia, RSMDA(R), ha costantemente ottenuto migliori risultati nel ridurre i tassi di errore rispetto ai modelli di base e alle tecniche di augmentation esistenti. Inoltre, RSMDA ha dimostrato una notevole robustezza contro gli attacchi avversari su dataset in scala di grigi e a colori, superando i metodi di augmentation tradizionali. Visualizzazioni delle Class Activation Maps hanno confermato l’efficacia di RSMDA nell’apprendimento di caratteristiche discriminanti simili a tecniche avanzate di augmentation come CutMix. Questi esperimenti evidenziano collettivamente le capacità di RSMDA nel miglioramento delle prestazioni del modello, della robustezza e dell’apprendimento delle caratteristiche nelle applicazioni di apprendimento profondo.

In questo articolo è stata presentata una nuova tecnica di data augmentation, Random Slices Mixing Data Augmentation (RSMDA), ed è stata valutata rigorosamente. RSMDA mescola creativamente sezioni di immagini per generare campioni di addestramento diversi, affrontando le limitazioni dei metodi basati su singola immagine. La strategia RSMDA(R), che si concentra sul mescolamento per riga, ha costantemente superato le tecniche esistenti nel ridurre i tassi di errore e ha dimostrato robustezza contro gli attacchi avversari su diversi dataset. La capacità di RSMDA di apprendere caratteristiche discriminanti è stata confermata attraverso le Class Activation Maps, a parità con metodi avanzati di augmentation come CutMix. Nel complesso, RSMDA emerge come una promettente tecnica di augmentation, mostrando capacità nel miglioramento delle prestazioni del modello, della robustezza e dell’apprendimento delle caratteristiche nelle applicazioni di apprendimento profondo.