Incontra il progetto Rumi Indicazioni paralinguistiche multimodali per grandi modelli di linguaggio

Rumi indicazioni paralinguistiche multimodali per modelli linguistici di grandi dimensioni

Nell’era digitale delle tecnologie emergenti, gli LLM (Large Language Models) sono emersi come uno strumento potente che sta rivoluzionando molti aspetti della società umana e della cultura, ridisegnando il nostro modo di interagire con i computer. Tuttavia, esiste una sfida cruciale che deve essere risolta. Le limitazioni degli LLM sono evidenti, rivelando una lacuna nell’incapacità di cogliere i contesti e le sfumature di una conversazione e dipendono dalla qualità e specificità dell’input. Una delle principali limitazioni è la mancanza di profondità della comunicazione reale, perdendo tutte le informazioni paralinguistiche.

Il progetto Rumi di Microsoft mira a potenziare le capacità degli LLM affrontando le limitazioni nella comprensione degli indizi non verbali e delle sfumature contestuali. Incorpora l’input paralinguistico nelle interazioni basate su prompt con gli LLM per migliorare la qualità della comunicazione. I ricercatori hanno utilizzato modelli audio e video per rilevare indizi non verbali in tempo reale dai flussi di dati. Vengono utilizzati due modelli separati per le informazioni paralinguistiche audio dell’utente, il primo per la prosodia tono e inflessione dell’audio e l’altro per la semantica del discorso. Hanno utilizzato vision transformers per codificare i frame e identificare le espressioni facciali dai video. Un servizio downstream incorpora le informazioni paralinguistiche nel prompt basato su testo. Questo approccio multimodale mira a migliorare la comprensione del sentimento e delle intenzioni dell’utente, elevando così l’interazione uomo-intelligenza artificiale a un nuovo livello.

In questa ricerca, i ricercatori hanno solo brevemente esplorato il ruolo che l’informazione paralinguistica fornisce nella comunicazione di informazioni critiche sulle intenzioni dell’utente. In futuro, hanno intenzione di migliorare e rendere più efficiente il modello. Vogliono anche aggiungere ulteriori dettagli come l’HRV (variabilità della frequenza cardiaca) derivata da video standard e il rilevamento cognitivo e ambientale. Tutto ciò fa parte di un impegno più ampio per aggiungere significato non espresso e intenzione nella prossima ondata di interazioni con l’intelligenza artificiale.