Rilevare l’esposizione all’alcool nei media Valutare la potenza del Zero-Shot Learning di CLIP rispetto al Deep Learning di ABIDLA2 nell’analisi delle immagini

Rilevare l'esposizione all'alcool nei media e confrontare la potenza di Zero-Shot Learning di CLIP con il Deep Learning di ABIDLA2 nell'analisi delle immagini.

L’alcol, una preoccupazione diffusa per la salute, rappresenta il 5,1% del carico globale di malattia, causando un significativo impatto negativo su individui ed economia. Dai social media ai film, alla pubblicità e alla musica popolare, l’esposizione all’alcol è ovunque. Gli studiosi suggeriscono un legame tra l’esposizione a post sui social media legati all’alcol e l’uso di alcol, in particolare tra i giovani adulti. I ricercatori stanno esplorando approcci innovativi per misurare e analizzare l’esposizione all’alcol. Modelli di deep learning supervisionato come l’Alcoholic Beverage Identification Deep Learning Algorithm (ABIDLA) hanno mostrato promesse nell’identificazione di bevande alcoliche dalle immagini, ma richiedono una vasta quantità di dati annotati manualmente per l’addestramento. 

Un approccio alternativo a questo è l’apprendimento senza campioni (Zero-Shot Learning, ZSL) utilizzando il modello Contrastive Language-Image Pretraining (CLIP). I ricercatori hanno investigato le performance di un modello ZSL rispetto a un algoritmo di deep learning appositamente addestrato per identificare bevande alcoliche nelle immagini (ABIDLA2). Il dataset di test utilizzato dagli studiosi di ricerca per la valutazione è utilizzato nel paper ABIDLA2, ABD22, che contiene otto categorie di bevande. Il set di test ha 1762 per classe per mantenere una distribuzione uniforme per la valutazione. La valutazione coinvolge tre compiti e le metriche di performance, come il richiamo medio non pesato (UAR), il punteggio F1 e il richiamo per classe, sono state calcolate e confrontate per ABIDLA2 e ZSL sia per le frasi denominate che descrittive. 

I ricercatori hanno scoperto che ZSL ha ottenuto buoni risultati in alcuni compiti, ma aveva bisogno di aiuto con la classificazione dettagliata. Il modello ABIDLA2 ha superato ZSL nell’identificazione di categorie specifiche di bevande. Tuttavia, ZSL utilizzando frasi descrittive (ad esempio, “questa è una foto di qualcuno che tiene una bottiglia di birra”) ha ottenuto risultati quasi pari ad ABIDLA2 nella classificazione di bevande specifiche in categorie più ampie (birra, vino, alcolici e altri, cioè Task 2) e ha addirittura superato ABIDLA2 nella classificazione se una foto includeva o meno contenuto alcolico. 

Hanno identificato che l’ingegnerizzazione delle frasi è essenziale per ZSL per ottenere una performance più elevata, soprattutto per la classe “altri”. 

Uno dei principali punti di forza di questo lavoro è che ZSL richiede un minimo di dati di allenamento aggiuntivi e risorse computazionali e meno competenze nell’informatica rispetto all’algoritmo di apprendimento supervisionato. Può affrontare con precisione questioni di ricerca come l’identificazione del contenuto alcolico nelle immagini, soprattutto quando è richiesta la classificazione binaria. I risultati incoraggiano lavori futuri a confrontare la capacità di generalizzazione dei modelli di apprendimento supervisionato rispetto a ZSL su dataset reali che includono immagini di diverse popolazioni e culture.