Il team di ricercatori dell’UC Berkeley presenta Ghostbuster un metodo AI SOTA per rilevare il testo generato da LLM

Il team di ricercatori dell'UC Berkeley presenta Ghostbuster un metodo AI all'avanguardia per rilevare il testo generato da LLM

ChatGPT ha rivoluzionato la capacità di produrre facilmente una vasta gamma di testi fluenti su una vasta gamma di argomenti. Ma quanto sono buoni veramente? I modelli linguistici sono inclini a errori di fatto e allucinazioni. Ciò consente ai lettori di sapere se tali strumenti sono stati utilizzati per scrivere articoli di notizie o altri testi informativi quando decidono se fidarsi o meno di una fonte. L’avanzamento di questi modelli ha sollevato anche preoccupazioni riguardo all’autenticità e all’originalità del testo. Molte istituzioni educative hanno anche limitato l’uso di ChatGPT a causa della facilità di produrre contenuti.

I modelli linguistici basati su GPT, come ChatGPT, generano risposte basate su modelli e informazioni nella vasta quantità di testo su cui sono stati addestrati. Non riproducono le risposte verbatim, ma generano nuovi contenuti prevedendo e comprendendo la continuazione più adatta per un dato input. Tuttavia, le reazioni possono attingere e sintetizzare informazioni dai dati di addestramento, portando a somiglianze con contenuti esistenti. È importante sottolineare che i modelli linguistici basati su GPT mirano all’originalità e all’accuratezza, ma non sono infallibili. Gli utenti dovrebbero esercitare discernimento e non fare affidamento esclusivamente su contenuti generati dall’IA per decisioni critiche o situazioni che richiedono consigli di esperti.

Esistono molti framework di rilevamento, come DetectGPT e GPTZero, per identificare se un modello linguistico basato su GPT ha generato il contenuto. Tuttavia, le performance di questi framework sono insufficienti su set di dati che non erano stati originariamente valutati. Ricercatori dell’Università della California presentano Ghostbusters. Si tratta di un metodo di rilevamento basato sulla ricerca strutturata e sulla classificazione lineare.

Ghostbusters utilizza un processo di addestramento a tre fasi chiamato calcolo delle probabilità, selezione delle caratteristiche e addestramento del classificatore. Innanzitutto, converte ogni documento in una serie di vettori calcolando le probabilità per ogni token secondo una serie di modelli linguistici. Successivamente, seleziona le caratteristiche eseguendo una procedura di ricerca strutturata su uno spazio di funzioni vettoriali e scalari che combinano queste probabilità definendo un insieme di operazioni che combinano queste caratteristiche e altre basate sulla lunghezza delle parole e sulle probabilità dei token più grandi. Infine, addestra un semplice classificatore sulle migliori caratteristiche basate sulle probabilità e su alcune caratteristiche manualmente selezionate.

I classificatori di Ghostbusters sono addestrati su combinazioni delle caratteristiche basate sulle probabilità scelte tramite ricerca strutturata e sette caratteristiche aggiuntive basate sulla lunghezza delle parole e sulle probabilità dei token più grandi. Queste altre caratteristiche sono destinate a incorporare euristiche qualitative osservate sui testi generati dall’IA.

I miglioramenti delle performance di Ghostbusters rispetto ai modelli precedenti sono solidi rispetto alla somiglianza dei set di dati di addestramento e di test. Ghostbusters ha raggiunto un F1-score di 97.0 in media su tutte le condizioni e ha superato DetectGPT di 39.6 F1 e GPTZero di 7.5 F1. Ghostbusters ha battuto il modello di base RoBERTa in tutti i domini tranne la scrittura creativa fuori dal dominio, e RoBERTa ha avuto una performance molto peggiore fuori dal dominio. L’F1-score è una metrica comunemente utilizzata per valutare le performance di un modello di classificazione. È una misura che combina sia la precisione che il richiamo in un unico valore ed è particolarmente utile quando si lavora con set di dati sbilanciati.