Il tuo pipeline LLM raggiunge il tuo obiettivo?

Raggiunge il tuo obiettivo il tuo pipeline LLM?

Esplora ciò che è più importante da valutare e come misurarlo nel tuo pipeline di LLM.

Foto di AI di Piret Ilver su Unsplash

Uno degli ingredienti chiave necessari per implementare efficacemente un pipeline di LLM è un modo per valutare l’efficacia del tuo pipeline. Ciò significa che è necessario valutare l’output finale che è il prodotto non solo del LLM stesso o del prompt, ma dell’interazione tra il LLM, il prompt e le impostazioni come temperatura o numero minimo e massimo di token.

Considera il codice di base per accedere all’API GPT (autogenerato):

import osimport openaiopenai.api_key = os.getenv("OPENAI_API_KEY")response = openai.ChatCompletion.create(  model="gpt-3.5-turbo",  messages=[],  temperature=1,  max_tokens=256,  top_p=1,  frequency_penalty=0,  presence_penalty=0)

Ci sono sette argomenti nella funzione per creare la ‘risposta’, ognuno dei quali modifica l’output finale. Essere in grado di scegliere la combinazione ottimale di questi output dipende dalla capacità di valutare e differenziare gli output prodotti da diversi valori di questi argomenti.

Questo è un problema diverso dalle valutazioni del LLM che si trovano più comunemente nei documenti o sui siti web dei creatori di LLM. Anche se è possibile che tu stia usando un LLM che può superare l’esame di abilitazione legale o un test simile pubblicizzato in queste fonti, ciò non significa che il tuo pipeline con il prompt che hai creato e le impostazioni che hai scelto riuscirà necessariamente a riassumere una collezione di documenti legali nel modo desiderato.

Questo è particolarmente vero quando si sta costruendo un pipeline per un utente esterno e quindi non è possibile modificare il prompt al volo. Ad esempio, supponiamo che tu voglia utilizzare un’API LLM per incorporare una soluzione LLM e utilizzare uno scheletro di prompt di base per generare descrizioni di articoli specifici, come in un catalogo. Ci sono due livelli da considerare per la idoneità:

In primo luogo, le risposte che generi sono adatte allo scopo?

In secondo luogo, puoi fare affidamento sul fatto che le risposte continuino ad essere adatte allo scopo con future iterazioni?

In un certo senso, il primo può essere valutato osservando una o più risposte singolarmente. Se le giudichi idonee, sei oltre la linea. Tuttavia, per valutare la affidabilità a lungo termine del…