Decodifica delle emozioni Svelare sentimenti e stati mentali con EmoTX, un nuovo framework di intelligenza artificiale alimentato da Transformer

EmoTX Decoding Emotions Unveiling feelings and mental states with EmoTX, a new AI framework powered by Transformer.

I film sono tra le espressioni artistiche più rappresentative di storie e emozioni. Ad esempio, in “The Pursuit of Happyness”, il protagonista attraversa una serie di emozioni, vivendo momenti difficili come una rottura e l’homelessness, ma anche il raggiungimento di un lavoro ambito. Queste intense emozioni coinvolgono il pubblico, che può identificarsi con il percorso del personaggio. Per comprendere tali narrazioni nel dominio dell’intelligenza artificiale (AI), diventa cruciale per le macchine monitorare lo sviluppo delle emozioni e degli stati mentali dei personaggi lungo la storia. Questo obiettivo viene raggiunto utilizzando annotazioni da MovieGraphs e addestrando modelli per osservare le scene, analizzare il dialogo e fare previsioni sugli stati emotivi e mentali dei personaggi.

Il tema delle emozioni è stato ampiamente esplorato nel corso della storia; dalla classificazione a quattro vie di Cicerone nell’antica Roma alla ricerca cerebrale contemporanea, il concetto di emozioni ha costantemente affascinato l’interesse dell’umanità. Gli psicologi hanno contribuito a questo campo introducendo strutture come la ruota di Plutchik o la proposta di espressioni facciali universali di Ekman, offrendo diversi quadri teorici. Le emozioni affettive vengono inoltre categorizzate in stati mentali che comprendono aspetti affettivi, comportamentali e cognitivi e stati corporei.

In uno studio recente, un progetto noto come Emotic ha introdotto 26 cluster distinti di etichette emotive durante l’elaborazione del contenuto visivo. Questo progetto ha suggerito un framework multi-label, consentendo la possibilità che un’immagine possa trasmettere contemporaneamente diverse emozioni, come la pace e l’interesse. Come alternativa all’approccio categorico tradizionale, lo studio ha anche incorporato tre dimensioni continue: valenza, attivazione e dominanza.

L’analisi deve comprendere varie modalità contestuali per prevedere con precisione una vasta gamma di emozioni. I percorsi prominenti nel riconoscimento multimodale delle emozioni includono il riconoscimento delle emozioni nelle conversazioni (ERC), che consiste nella categorizzazione delle emozioni per ogni istanza di scambio di dialogo. Un altro approccio consiste nella previsione di un singolo punteggio di valenza-attività per brevi segmenti di clip di film.

L’operatività a livello di una scena di un film comporta il lavoro con una collezione di riprese che raccontano collettivamente una sottostoria all’interno di una posizione specifica, coinvolgendo un cast definito e che si svolge in un breve periodo di tempo di 30-60 secondi. Queste scene offrono una durata significativamente maggiore rispetto ai dialoghi o ai singoli frammenti di film. L’obiettivo è prevedere le emozioni e gli stati mentali di ogni personaggio nella scena, inclusa l’accumulazione di etichette a livello di scena. Dato il lungo periodo di tempo, questa stima porta naturalmente a un approccio di classificazione multi-label, poiché i personaggi possono trasmettere contemporaneamente molteplici emozioni (come curiosità e confusione) o subire transizioni a causa delle interazioni con gli altri (ad esempio, passare da preoccupazione a calma).

Inoltre, mentre le emozioni possono essere ampiamente categorizzate come parte degli stati mentali, questo studio distingue tra emozioni espresse, che sono visibilmente evidenti nell’atteggiamento di un personaggio (ad esempio, sorpresa, tristezza, rabbia), e stati mentali latenti, che sono discernibili solo attraverso interazioni o dialoghi (ad esempio, cortesia, determinazione, fiducia, disponibilità). Gli autori sostengono che la classificazione efficace all’interno di uno spazio di etichette emotive esteso richiede la considerazione del contesto multimodale. Come soluzione, propongono EmoTx, un modello che incorpora contemporaneamente frame video, enunciati di dialogo e apparenze dei personaggi.

Una panoramica di questo approccio è presentata nella figura seguente.

https://arxiv.org/abs/2304.05634

EmoTx utilizza un approccio basato su Transformer per identificare le emozioni su base per personaggio e per scena di film. Il processo inizia con una pipeline iniziale di pre-elaborazione video ed estrazione delle caratteristiche, che estrae rappresentazioni rilevanti dai dati. Queste caratteristiche includono dati video, volti dei personaggi e caratteristiche del testo. In questo contesto, vengono introdotte incorporazioni appropriate per i token per la differenziazione basata sulle modalità, l’enumerazione dei personaggi e il contesto temporale. Inoltre, vengono generati token che fungono da classificatori per le singole emozioni e sono collegati alla scena o ai personaggi specifici. Una volta incorporati, questi token vengono combinati utilizzando strati lineari e alimentati a un codificatore Transformer, consentendo l’integrazione delle informazioni tra diverse modalità. Il componente di classificazione del metodo si ispira a studi precedenti sulla classificazione multi-label che impiegano i Transformer.

Un esempio del comportamento di EmoTx pubblicato dagli autori e relativo ad una scena di “Forrest Gump” è riportato nella seguente figura.

https://arxiv.org/abs/2304.05634

Questo è il riassunto di EmoTx, una nuova architettura basata su Transformer AI, EmoTx, che predice le emozioni dei soggetti che appaiono in un videoclip a partire da dati multimodali adeguati. Se sei interessato e vuoi saperne di più, sentiti libero di consultare i link citati di seguito.