Topic Modeling con Llama 2

Topic Modeling con Llama 2

Creare argomenti facilmente interpretabili con Large Language Models

Con l’avvento di Llama 2, l’esecuzione di potenti LLM localmente è diventata sempre più una realtà. La sua precisione si avvicina a quella di GPT-3.5 di OpenAI, che funziona bene per molti casi d’uso.

In questo articolo, esploreremo come possiamo utilizzare Llama2 per il Topic Modeling senza la necessità di passare ogni singolo documento al modello. Invece, sfrutteremo BERTopic, una tecnica modulare di topic modeling che può utilizzare qualsiasi LLM per il raffinamento delle rappresentazioni dei topic.

BERTopic funziona in modo piuttosto semplice. Si compone di 5 passaggi sequenziali:

  1. Incorporazione dei documenti
  2. Riduzione della dimensionalità delle incorporazioni
  3. Cluster delle incorporazioni ridotte
  4. Tokenizzazione dei documenti per cluster
  5. Estrazione delle parole che rappresentano meglio ogni cluster
I 5 passaggi principali di BERTopic.

Tuttavia, con l’ascesa di LLM come Llama 2, possiamo fare molto meglio di un insieme di parole indipendenti per ogni argomento. Non è fattibile dal punto di vista computazionale passare tutti i documenti direttamente a Llama 2 e farli analizzare. Possiamo utilizzare database vettoriali per la ricerca, ma non siamo del tutto certi quali argomenti cercare.

Invece, sfrutteremo i cluster e gli argomenti creati da BERTopic e faremo in modo che Llama 2 raffini e distilla quelle informazioni in qualcosa di più accurato.

Questo è il meglio dei due mondi, la creazione degli argomenti di BERTopic insieme alla rappresentazione degli argomenti di Llama 2.

Llama 2 ci permette di raffinare le rappresentazioni degli argomenti generate da BERTopic.

Ora che questa introduzione è terminata, iniziamo il tutorial pratico!

Inizieremo installando una serie di pacchetti che utilizzeremo in tutto questo esempio:

pip install bertopic datasets accelerate bitsandbytes xformers adjustText

Tieni presente che avrai bisogno almeno di una GPU T4 per eseguire questo esempio, il che può…