Questo articolo sull’Intelligenza Artificiale di Microsoft introduce un nuovo approccio per addestrare modelli di linguaggio imitare la comprensione umana nella lettura per migliorare le prestazioni in biomedicina, finanza e diritto.

Intelligenza Artificiale di Microsoft un nuovo approccio per migliorare le prestazioni in biomedicina, finanza e diritto attraverso la comprensione umana nella lettura

I modelli linguistici di grandi dimensioni specifici del dominio sono emersi a causa dell’eccessiva presenza di modelli linguistici generici di grandi dimensioni (LLM). Tre categorie principali possono essere utilizzate per raggruppare le metodologie esistenti. La prima costruisce modelli da zero utilizzando una combinazione di corpora generici e specifici del dominio. Anche se questo produce naturalmente LLM specifici del dominio, le esigenze computazionali e di dati ingombranti causano seri problemi. Il secondo metodo, che è più economico, affina il modello linguistico utilizzando insiemi di dati supervisionati. Tuttavia, è necessario stabilire quanto bene i LLM sintonizzati possano comprendere le conoscenze di dominio che possono essere utilizzate in tutte le attività specifiche del dominio. Nel terzo, le informazioni sul dominio recuperate vengono utilizzate per motivare il modello linguistico generale, che può essere visto come un’applicazione di LLM invece di un miglioramento diretto del LLM stesso.

Ricercatori di Microsoft provano il pretraining adattivo al dominio, ossia il pretraining continuo su corpora specifici del dominio, che ritengono utile per personalizzare diversi modelli di elaborazione del linguaggio naturale a determinati domini. Unendo le conoscenze specifiche del dominio all’ampia capacità, questo metodo beneficia delle attività specifiche del dominio a valle pur comportando meno spese. Ciò li porta a cercare di capire se il pretraining continuo è altrettanto vantaggioso per modelli generativi estesi. Effettuano esperimenti preliminari su tre domini, biologia, finanza e legge, e scoprono che un ulteriore addestramento sui corpora grezzi riduce drasticamente le prestazioni del prompt mentre mantiene i benefici per la valutazione del fine-tuning e i test di sondaggio delle conoscenze. Ciò ci porta alla conclusione che il pretraining adattivo al dominio utilizzando i corpora grezzi insegna al LLM del dominio ma ne compromette la capacità di prompt.

Figura 1 mostra un esempio condensato di un testo di comprensione della lettura . Il testo grezzo è seguito da una serie di compiti costruiti da esso, come la sintesi (viola), la conversione da parole a testo (blu), l’inferenza di lingua naturale (rosso), il ragionamento di senso comune (verde bluastro), il rilevamento delle parafrasi (giallo) e il completamento del testo (verde).

Offrono un approccio diretto per convertire enormi corpora grezzi in testi di comprensione della lettura per utilizzare le conoscenze specifiche del dominio e migliorare le prestazioni del prompt. Ogni testo grezzo viene arricchito con diversi compiti pertinenti al suo argomento, come mostrato nella Figura 1. Questi esercizi sono intesi a supportare la capacità continua del modello di rispondere a domande in linguaggio naturale, a seconda del contesto del testo originale. Per migliorare ulteriormente la capacità di prompt, forniscono una varietà di indicazioni generiche ai testi di comprensione della lettura. I loro test in biologia, economia e legge dimostrano quanto bene il loro metodo migliora le prestazioni del modello su numerosi compiti specifici del dominio. Chiamano il modello finale, che sta per Adapted Large Language Model, AdaptLLM. In futuro, vedono questo processo esteso anche alla creazione di un modello linguistico di grandi dimensioni generico, ampliando così il campo delle opportunità in ulteriori domini.

In conclusione, i loro contributi consistono in:

• Nella loro indagine sul pretraining continuo per i modelli linguistici di grandi dimensioni, scoprono che continuare ad addestrare il modello su corpora grezzi specifici del dominio può fornire conoscenze di dominio, ma degrada gravemente la sua capacità di prompt.

• Per imparare efficientemente le conoscenze del dominio mantenendo contemporaneamente le prestazioni di prompt, presentano una procedura semplice che trasforma automaticamente enormi corpora grezzi in testi di comprensione della lettura. I loro test dimostrano che il loro approccio migliora regolarmente le prestazioni del modello in tre campi distinti: biologia, finanza e legge.