Incontra il progetto Rumi Indicazioni paralinguistiche multimodali per grandi modelli di linguaggio

Rumi indicazioni paralinguistiche multimodali per modelli linguistici di grandi dimensioni

Nell’era digitale delle tecnologie emergenti, gli LLM (Large Language Models) sono emersi come uno strumento potente che sta rivoluzionando molti aspetti della società umana e della cultura, ridisegnando il nostro modo di interagire con i computer. Tuttavia, esiste una sfida cruciale che deve essere risolta. Le limitazioni degli LLM sono evidenti, rivelando una lacuna nell’incapacità di cogliere i contesti e le sfumature di una conversazione e dipendono dalla qualità e specificità dell’input. Una delle principali limitazioni è la mancanza di profondità della comunicazione reale, perdendo tutte le informazioni paralinguistiche.

Il progetto Rumi di Microsoft mira a potenziare le capacità degli LLM affrontando le limitazioni nella comprensione degli indizi non verbali e delle sfumature contestuali. Incorpora l’input paralinguistico nelle interazioni basate su prompt con gli LLM per migliorare la qualità della comunicazione. I ricercatori hanno utilizzato modelli audio e video per rilevare indizi non verbali in tempo reale dai flussi di dati. Vengono utilizzati due modelli separati per le informazioni paralinguistiche audio dell’utente, il primo per la prosodia tono e inflessione dell’audio e l’altro per la semantica del discorso. Hanno utilizzato vision transformers per codificare i frame e identificare le espressioni facciali dai video. Un servizio downstream incorpora le informazioni paralinguistiche nel prompt basato su testo. Questo approccio multimodale mira a migliorare la comprensione del sentimento e delle intenzioni dell’utente, elevando così l’interazione uomo-intelligenza artificiale a un nuovo livello.

In questa ricerca, i ricercatori hanno solo brevemente esplorato il ruolo che l’informazione paralinguistica fornisce nella comunicazione di informazioni critiche sulle intenzioni dell’utente. In futuro, hanno intenzione di migliorare e rendere più efficiente il modello. Vogliono anche aggiungere ulteriori dettagli come l’HRV (variabilità della frequenza cardiaca) derivata da video standard e il rilevamento cognitivo e ambientale. Tutto ciò fa parte di un impegno più ampio per aggiungere significato non espresso e intenzione nella prossima ondata di interazioni con l’intelligenza artificiale.

AI Shorts,Applications,artificial intelligence,Editors Pick,Large Language Model,Machine Learning,Staff,Tech News,Technology,Uncategorized

Incontra il progetto Rumi Indicazioni paralinguistiche multimodali per grandi modelli di linguaggio

Rumi indicazioni paralinguistiche multimodali per modelli linguistici di grandi dimensioni

Realizzazione di una nuova conferenza di calcio universitario – Regressione

Riconoscimento della lingua parlata su Mozilla Common Voice – Parte II Modelli.

Serie di apprendimento non supervisionato e...

Top 10 LLM Open Source da UTILIZZARE nella ...

Come è essere un Data Scientist Full-Stack ...

Apprendimento automatico su grafi @ ICML 2023

Esplorazione del linguaggio di programmazio...

Differenziabilità di una Funzione Data il s...

AI