I ricercatori dell’Università di Manchester presentano MentalLLaMA la prima serie LLM open-source per un’analisi leggibile della salute mentale con capacità di istruzione in seguito.

I ricercatori dell'Università di Manchester presentano MentalLLaMA la prima serie di strumenti open-source LLM per un'analisi leggibile della salute mentale con capacità formative avanzate.

PTSD e altri problemi di salute mentale hanno un impatto sulla salute pubblica a livello globale. A causa dello stigma, molte persone non cercano prontamente assistenza psichiatrica, il che può avere ripercussioni catastrofiche. I social media si sono radicati nella vita quotidiana delle persone grazie all’avanzamento della tecnologia online1. I testi sui social media sono una grande fonte per l’analisi della salute mentale e possibili interventi precoci, poiché molte persone con probabili disturbi mentali utilizzano siti come Twitter e Reddit per comunicare emozioni negative ed esprimere lo stress. Tuttavia, il volume di messaggi sui social media in costante aumento rende l’analisi manuale dei post poco fattibile. Di conseguenza, numerosi studi utilizzano approcci di elaborazione del linguaggio naturale (Natural Language Processing – NLP) per analizzare automaticamente i social media in termini di salute mentale.

Gli approcci precedenti all’elaborazione del linguaggio naturale (NLP) per la salute mentale hanno generalmente modellato l’analisi dei social media sulla salute mentale come problemi di classificazione del testo, in cui modelli di linguaggio pre-addestrati (Pre-trained Language Models – PLM) discriminativi e specifici del dominio hanno raggiunto prestazioni all’avanguardia. Uno dei loro principali svantaggi è che questi algoritmi forniscono previsioni in modo opaco, con poca interpretabilità, il che riduce considerevolmente la loro affidabilità nell’uso effettivo. Studi recenti hanno valutato l’efficacia dei nuovi modelli di linguaggio di grandi dimensioni (Large Language Models – LLM), tra cui ChatGPT2 e LLaMA, nell’identificare numerose malattie mentali e fornire giustificazioni approfondite delle loro scelte utilizzando approcci Chain-of-Thought (CoT). Hanno anche condotto ampi test umani per dimostrare che ChatGPT può produrre spiegazioni delle sue corrette classificazioni paragonabili a quelle fornite dagli esseri umani, dimostrando il suo potenziale per migliorare la comprensibilità dell’analisi della salute mentale.

Tuttavia, al momento ChatGPT non riesce a raggiungere le prestazioni degli algoritmi supervisionati all’avanguardia in un ambiente di apprendimento zero-shot o few-shot, il che ne limita l’applicazione in situazioni reali. Un metodo pratico consiste nel allineare i LLM di base con il dominio obiettivo mediante un fine-tuning su una quantità limitata di dati. Lo sviluppo di LLM per un’analisi comprensibile della salute mentale si trova di fronte a due ostacoli principali. In primo luogo, sono necessari dati di addestramento affidabili per ottimizzare i LLM. Sebbene alcuni set di dati per l’analisi della salute mentale sui social media contengano brevi estratti di contenuti casuali, mancano ancora dati open-source che offrano giustificazioni dettagliate e affidabili dei risultati di rilevamento. Lo studio delicato e l’alto costo delle spiegazioni redatte da specialisti sono le principali cause di questa mancanza.

In secondo luogo, solo alcuni LLM open-source per analisi comprensibili della salute mentale sono stati resi disponibili al pubblico. Tuttavia, promuovere o adattare LLM closed-source come ChatGPT può essere molto costoso3. È necessario migliorare la crescita della comunità di ricerca pertinente a causa dell’alto costo e della mancanza di risorse. Hanno creato il primo dataset multi-task e multi-sorgente Instruction for Interpretable Mental Health (IMHI) con 105.000 campioni dati per consentire l’adattamento e la valutazione delle istruzioni LLM per colmare queste lacune. In primo luogo, raccolgono dati di training da 10 fonti esistenti, che coprono 8 compiti, come compiti di rilevamento della salute mentale binaria, compiti di rilevamento della salute mentale multi-classe, compiti di rilevamento delle cause/fattori di salute mentale e compiti di rilevamento dei fattori di rischio e benessere mentale.

Figura 1 mostra alcuni esempi delle prestazioni di MentalLLaMA in vari compiti, inclusa l’analisi della salute mentale. Riassume anche i dati di training e i modelli sottostanti di MentalLLaMA.

I post sui social media e le relative etichette sono incluse nei dati raccolti. In secondo luogo, i clienti ottengono una giustificazione dettagliata per ogni etichetta con annotazioni. Utilizzano domande di few-shot scritte da esperti e le etichette raccolte per ispirare ChatGPT e ottenere spiegazioni dalle sue risposte, prendendo ispirazione dal successo di self-instruct. Effettuano valutazioni automatiche di tutti i dati acquisiti per garantire ulteriormente la qualità delle spiegazioni. Durante queste valutazioni, vengono valutate l’accuratezza delle previsioni, la corrispondenza tra le etichette e le spiegazioni e la qualità complessiva delle spiegazioni. Con una strategia di annotazione ben studiata da parte di esperti del settore, conduciamo anche valutazioni umane per alcuni dei dati raccolti.

In terzo luogo, utilizzano un approccio basato su regole per convertire tutti i post, gli hashtag e le spiegazioni raccolti dai social media in coppie di query-risposta basate sulle istruzioni. Queste vengono poi utilizzate per creare i dati di addestramento e il benchmark di valutazione del dataset IMHI. I ricercatori dell’Università di Manchester introducono MentalLLaMA, la prima serie di modelli LLM open-source per l’analisi interpretabile della salute mentale con capacità di seguire le istruzioni, basata sul dataset IMHI. I modelli base LLaMA2 servono come base per addestrare i modelli MentalLLaMA. In particolare, vengono apportate modifiche specifiche ai modelli MentalLLaMA-7B, MentalLLaMA-chat-7B e MentalLLaMA-chat-13B. La Figura 1 mostra alcune istanze delle eccellenti capacità di MentalLLaMA.

Inoltre, valutano approfonditamente le prestazioni dei modelli MentalLLaMA rispetto allo standard di valutazione IMHI. Valutano l’accuratezza predittiva di MentalLLaMA confrontando i risultati delle sue classificazioni con le tecniche discriminative all’avanguardia e altri modelli di linguaggio generativi. Secondo i risultati, MentalLLaMA-chat-13B è più accurato o equiparabile ai livelli di punta su sette dei dieci set di test. Valutano anche la qualità delle spiegazioni generate. I risultati dimostrano che la personalizzazione delle istruzioni, il reinforcement learning a partire dai feedback umani (RLHF) e l’aumento delle dimensioni dei modelli migliorano la qualità della creazione di spiegazioni.

Hanno creato il primo dataset per l’analisi interpretabile della salute mentale sui social media, chiamato Interpretable Mental Health Instruction (IMHI), che contiene 105.000 campioni. • Propongono MentalLLaMA, il primo grande modello di linguaggio a seguire istruzioni, open-source e in grado di effettuare analisi interpretabili della salute mentale. MentalLLaMA può utilizzare i dati dei social media per condurre analisi sulla salute mentale e può fornire giustificazioni convincenti per le sue conclusioni. • Con 19.000 campioni di test, che includono 8 compiti e 10 set di test, presentano il primo standard di valutazione completo per l’analisi comprensibile della salute mentale. In questo benchmark, confrontano MentalLLaMA con le tecniche attualmente utilizzate. I risultati e l’analisi mostrano che MentalLLaMA è superiore, e il lavoro futuro si concentrerà sul miglioramento dei LLM per un’analisi comprensibile della salute mentale.