Affrontare il divario di generalizzazione dell’AI i ricercatori dell’University College di Londra propongono Spawrious – una suite di benchmark per la classificazione delle immagini contenente correlazioni spurie tra le classi e gli sfondi.

The researchers at University College London propose Spawrious, a suite of image classification benchmarks containing spurious correlations between classes and backgrounds, to address the AI generalization gap.

Con l’aumentare della popolarità dell’Intelligenza Artificiale, nuovi modelli vengono rilasciati quasi ogni giorno con nuove funzionalità e capacità di risoluzione dei problemi. I ricercatori recentemente si sono concentrati sulla ricerca di approcci per rafforzare la resistenza dei modelli di IA alle distribuzioni di test sconosciute e per ridurre la loro dipendenza dalle caratteristiche spurie. Considerando gli esempi di auto a guida autonoma e robot da cucina autonomi, essi non sono stati ancora ampiamente impiegati a causa delle sfide poste dal loro comportamento in contesti fuori distribuzione (OOD), che si riferiscono a scenari che differiscono significativamente dai dati di formazione a cui i modelli sono stati esposti.

Numerosi studi hanno esaminato il problema delle correlazioni spurie (SC) e suggerito metodi per ridurre i loro effetti negativi sulle prestazioni del modello. È stato dimostrato che i classificatori addestrati su dataset ben noti come ImageNet si basano su dati di background, che sono collegati spurieamente alle etichette di classe ma non necessariamente predittivi. Sebbene si sia progredito nello sviluppo di metodi per affrontare il problema della SC, c’è ancora la necessità di affrontare le limitazioni dei benchmark esistenti. I benchmark attuali come Waterbirds e CelebA hair color hanno limitazioni, una delle quali è la loro focalizzazione su correlazioni spurie uno a uno (O2O), quando in realtà, le correlazioni spurie molti a molti (M2M) sono più comuni, coinvolgendo gruppi di classi e background.

Recentemente, un team di ricercatori dell’University College di Londra ha introdotto una suite di benchmark di classificazione delle immagini chiamata Spawrious, che contiene correlazioni spurie tra classi e sfondi. Comprende sia correlazioni spurie uno a uno (O2O) che molti a molti (M2M), che sono state categorizzate in tre livelli di difficoltà: Facile, Medio e Difficile. Il dataset è composto da circa 152.000 immagini fotorealistiche di alta qualità generate utilizzando un modello di testo per immagine, ed è stato impiegato un modello di sottotitolazione delle immagini per filtrare le immagini non idonee, garantendo la qualità e la pertinenza del dataset.

Durante la valutazione, il dataset Spawrious ha dimostrato un’incredibile performance poiché il dataset ha imposto sfide per gli approcci di robustezza di gruppo all’avanguardia (SOTA), come Hard-splits, che hanno presentato una sfida significativa, con nessuno dei metodi testati che ha raggiunto oltre il 70% di accuratezza utilizzando un modello ResNet50 preaddestrato su ImageNet. Il team ha menzionato come le carenze delle prestazioni dei modelli siano state causate dalla loro dipendenza da sfondi fittizi guardando le classificazioni che hanno fatto in modo errato. Questo dimostra come il dataset Spawrious sia stato in grado di testare con successo i classificatori e rivelare le loro debolezze nelle correlazioni erronee.

Per illustrare la differenza tra i benchmark O2O e M2M, il team ha utilizzato un esempio di raccolta dei dati di formazione durante l’estate, composto da due gruppi di specie animali provenienti da due posizioni distinte, con ogni gruppo di animali associato a un gruppo di sfondi specifico. Tuttavia, con il cambiare delle stagioni e la migrazione degli animali, i gruppi scambiano posizioni, causando le correlazioni spurie tra i gruppi di animali e gli sfondi a invertirsi in modo che non possano essere abbinate su base uno a uno. Ciò mette in evidenza la necessità di catturare le complesse relazioni e interdipendenze nelle correlazioni spurie M2M.

Spawrious sembra essere una suite di benchmark promettente per gli algoritmi OOD, la generalizzazione di dominio e per valutare e migliorare la robustezza dei modelli in presenza di caratteristiche spurie.