Come possono i punti vendita automatici riconoscere i prodotti non etichettati? Scopri l’approccio di PseudoAugment alla visione artificiale.

PseudoAugment l'approccio per far riconoscere i prodotti non etichettati dai punti vendita automatici.

Con i progressi nelle tecniche di apprendimento automatico e di deep learning, c’è stato anche un aumento dell’automazione di varie dimensioni. L’automazione sta riducendo progressivamente la necessità di intervento umano in numerosi aspetti di routine della vita quotidiana, in particolare nel settore della vendita al dettaglio.

Ci permettono di monitorare le risorse naturali e contribuiscono anche alla sostenibilità ambientale. I sistemi automatizzati aiutano ad ottimizzare la catena di approvvigionamento migliorando la gestione dell’inventario, le previsioni di domanda e la coordinazione della logistica. Tuttavia, ci sono alcuni casi in cui l’automazione è difficile e complessa. L’identificazione di prodotti senza un codice a barre è un esempio.

Per addebitare correttamente un consumatore presso una stazione di self-checkout è necessaria la capacità di discernere oggetti pesati. Un tale sistema deve essere in grado di identificare tutti i tipi di prodotti sfusi, cereali e altre merci vendute. In generale, in molti negozi al dettaglio, i clienti devono ricordare un codice di prodotto e pesare la merce nel reparto per identificare il tipo di frutta o verdura da soli.

Per superare questo problema, i ricercatori di Skoltech e di altre istituzioni hanno ideato un nuovo modo per distinguere i prodotti pesati in un supermercato. I ricercatori hanno utilizzato la visione artificiale per agevolare questo processo. Questo approccio accelera l’addestramento delle reti neurali anche quando vengono introdotte nuove varietà di prodotti.

Per agevolare questa ricerca, i ricercatori hanno raccolto diversi tipi di immagini. Le immagini raccolte sono state scattate in luoghi diversi: in un giardino, in un negozio di alimentari locale e in un laboratorio. Hanno scattato 1000 immagini naturali per classe, per un totale di 5000 immagini naturali. Un altro tipo di immagine che hanno utilizzato contiene immagini di contenitori viste dall’alto in cui molti oggetti erano in vista dall’alto. Hanno utilizzato 70 immagini dall’alto per classe, con una media di 7,1 oggetti per immagine. Hanno combinato diverse immagini e sfondi, applicato varie trasformazioni e generato più immagini di addestramento rispetto al numero di oggetti ritagliati.

I ricercatori hanno anche aumentato (una manipolazione visiva dei dati grezzi che aggiunge immagini create alle foto) le immagini garantendo che la degradazione della qualità della rilevazione sia molto inferiore rispetto a quella senza PseudoAugment.

Il team di ricerca ha affermato che esistono alcune limitazioni con i tipi di processi precedenti. Hanno detto che la difficoltà è che al supermercato ci sono molti frutti o verdure visivamente simili e spesso ne appaiono di nuovi. I sistemi classici di visione artificiale devono essere riaddestrati ogni volta che viene consegnata una nuova varietà. Hanno inoltre affermato che ciò richiede tempo perché dobbiamo raccogliere molti dati e poi etichettarli manualmente.

Per verificare l’accuratezza e le prestazioni di questo approccio, i ricercatori hanno categorizzato cinque diversi tipi di frutta e hanno scoperto che quando il numero di foto di addestramento naturali è inferiore a 50, l’output della pipeline predefinita era essenzialmente un’ipotesi. Hanno sottolineato che il vantaggio di questo approccio si manifesta quando l’immagine di addestramento originale è inferiore a 250. I ricercatori hanno inoltre testato l’accuratezza dell’approccio sul problema della classificazione della frutta e hanno osservato che l’approccio può raggiungere un’accuratezza del 98,3% senza immagini di addestramento naturali.