Sta cambiando il comportamento di ChatGPT nel tempo? I ricercatori valutano le versioni di GPT-3.5 e GPT-4 di marzo 2023 e giugno 2023 su quattro diverse attività

I ricercatori valutano il comportamento di ChatGPT nel tempo, confrontando le versioni di GPT-3.5 e GPT-4 di marzo e giugno 2023 su quattro diverse attività.

I Modelli Linguistici Large (LLM) hanno dimostrato con successo di essere l’innovazione migliore nel campo dell’Intelligenza Artificiale. Da BERT, PaLM e GPT a LLaMa DALL-E, questi modelli hanno dimostrato un’incredibile capacità di comprendere e generare linguaggio allo scopo di imitare gli esseri umani. Questi modelli migliorano continuamente in base alle nuove informazioni, all’input degli utenti e alle modifiche di progettazione. Tuttavia, c’è ancora incertezza su quanto frequentemente GPT-3.5 e GPT-4 riceveranno aggiornamenti, il che rende difficile integrare questi LLM in flussi di lavoro più ampi.

L’instabilità può interrompere le pipeline successive se il comportamento di un LLM, come la sua correttezza o formattazione in risposta a un prompt, cambia improvvisamente. Questa imprevedibilità potrebbe rendere difficile per sviluppatori e utenti fidarsi dei risultati regolari, il che può limitare l’integrazione stabile di LLM nei sistemi e nei flussi di lavoro attuali. Per studiare come i comportamenti dei diversi Modelli Linguistici Large (LLM) cambiano nel tempo, un team di ricercatori dell’Università di Stanford e dell’UC Berkeley ha valutato il comportamento delle versioni di marzo 2023 e giugno 2023 di GPT-3.5 e GPT-4.

Tre elementi cruciali sono stati utilizzati per quantificare i cambiamenti, che sono i servizi LLM da monitorare, gli scenari applicativi su cui concentrarsi e le metriche per valutare la deriva LLM in ogni scenario. I componenti principali di ChatGPT, GPT-4 e GPT-3.5, sono i servizi LLM monitorati in questo studio. Date l’accettazione di ChatGPT sia da parte di aziende che di individui, nonché la sua popolarità, il monitoraggio sistematico e tempestivo di questi due servizi può aiutare gli utenti a comprendere e utilizzare meglio i LLM per i loro casi d’uso specifici.

Sono state utilizzate le istantanee di marzo 2023 e giugno 2023 delle due principali versioni di GPT-4 e GPT-3.5 accessibili tramite l’API di OpenAI nello studio, con l’obiettivo principale di esaminare le variazioni o “drift” tra le due date. Il team ha scelto quattro compiti LLM comunemente studiati per la valutazione, che vengono utilizzati come benchmark di prestazioni e sicurezza. Questi compiti includono:

  1. Risoluzione di problemi matematici – L’accuratezza misura con quale frequenza un servizio LLM produce la risposta corretta.
  1. Rispondere a domande delicate: L’indice di risposta mostra con quale frequenza un servizio LLM fornisce una risposta diretta.
  1. Generazione di codice – La percentuale di codice generato che può essere eseguito immediatamente in un ambiente di programmazione e soddisfa i test di unità.
  1. Ragionamento visivo – Corrispondenza esatta, che valuta se gli oggetti visivi creati corrispondono esattamente al materiale di origine.

In conclusione, la ricerca si concentra su GPT-4 e GPT-3.5, li valuta su quattro compiti scelti e utilizza misure di prestazioni specializzate e altre metriche comuni per quantificare e misurare le deriva LLM in ogni scenario al fine di esaminare come i comportamenti dei vari LLM evolvono nel tempo. Le conclusioni dello studio possono aiutare gli utenti a comprendere meglio il comportamento dei LLM e a utilizzare questi modelli per una varietà di applicazioni.