Dentro Ghostbuster il nuovo metodo dell’Università di Berkeley per rilevare i contenuti generati da intelligenza artificiale

Dentro Ghostbuster il nuovo metodo dell'Università di Berkeley per individuare i contenuti generati da intelligenza artificiale

Il nuovo metodo utilizza un metodo di distribuzione di probabilità per rilevare la probabilità di token generati da AI all’interno di un documento.

Creato utilizzando DALL-E

Recentemente ho avviato una newsletter educativa incentrata sull’IA, che conta già oltre 160.000 abbonati. TheSequence è una newsletter orientata all’apprendimento automatico (ML) senza fronzoli (cioè senza hype, senza notizie, ecc.) che richiede 5 minuti di lettura. L’obiettivo è tenerti aggiornato sui progetti di apprendimento automatico, sugli articoli di ricerca e sui concetti. Provala iscrivendoti qui sotto:

TheSequence | Jesus Rodriguez | Substack

La migliore fonte per rimanere aggiornato sulle novità nell’apprendimento automatico, nell’intelligenza artificiale e nei dati…

thesequence.substack.com

L’evoluzione rapida dei grandi modelli di linguaggio (LLM) ha creato nuove sfide per differenziare tra contenuto generato da umani e generato da AI. Di recente, abbiamo visto emergere diverse soluzioni per affrontare questa sfida, ma il numero di falsi positivi è preoccupante. Recentemente, Berkeley AI Research (BAIR) ha pubblicato un nuovo articolo che introduce una tecnica per identificare contenuti generati da AI.

Ghostbuster, presentato in un recente articolo di ricerca, si presenta come una soluzione formidabile per l’identificazione di testo generato da AI. Il suo framework operativo ruota attorno al calcolo meticoloso della probabilità di generare ciascun token all’interno di un documento sotto la lente di varie modelli di linguaggio meno potenti. Successivamente, Ghostbuster utilizza una fusione di funzioni derivate da queste probabilità dei token per fungere da input per un classificatore conclusivo.

Un tratto notevole di Ghostbuster è la sua natura agnostica al modello. Opera senza alcuna conoscenza preventiva del modello specifico responsabile della generazione del documento o della probabilità associata all’output di tale modello. Questa qualità intrinseca dota Ghostbuster di un’utilità unica nel rilevare il testo che potrebbe essere stato generato da un modello sconosciuto o a scatola nera, uno scenario comunemente riscontrato con modelli commerciali popolari come ChatGPT e Claude, dove le probabilità rimangono non divulgate.

Credito immagine: BAIR

All’interno di Ghostbuster

Il funzionamento interno di Ghostbuster si svela attraverso un processo di addestramento articolato in tre fasi. Ogni fase contribuisce alla capacità del sistema di discernere in modo efficace il testo generato da AI.

  1. Calcolo delle probabilità: La fase iniziale prevede la trasformazione di ciascun documento in una serie di vettori. Questa trasformazione viene ottenuta valutando la probabilità di generare singole parole all’interno del documento. Ghostbuster lo fa consultando una serie di modelli di linguaggio meno potenti, inclusi un modello di unigramma, un modello di trigramma e due modelli GPT-3 non sintonizzati sull’istruzione, ada e davinci.
  2. Selezione delle caratteristiche: La seconda fase si basa su una procedura strutturata di selezione delle caratteristiche. Funziona stabilendo un insieme di operazioni vettoriali e scalari intesi a combinare le probabilità calcolate nel passaggio precedente. Questa procedura esplora quindi sistematicamente varie combinazioni di queste operazioni mediante una selezione progressiva delle caratteristiche, incorporando costantemente le caratteristiche più vantaggiose.
  3. Addestramento del classificatore: La fase finale culmina nell’addestramento di un classificatore lineare. Questo classificatore viene costruito utilizzando le caratteristiche basate sulla probabilità più promettenti identificate durante il processo di selezione delle caratteristiche. Inoltre, alcune caratteristiche selezionate manualmente vengono integrate nel modello per migliorarne le prestazioni.

Nella pratica, Ghostbuster inizia la sua analisi sottoponendo documenti scritti da umani e documenti generati da AI a una serie di modelli di linguaggio meno potenti. Questa serie di modelli va dai modelli rudimentali di unigramma al modello GPT-3 non sintonizzato sull’istruzione, davinci. Ghostbuster quindi sfrutta le probabilità delle parole prodotte da questi modelli per esplorare uno spazio multidimensionale di funzioni vettoriali e scalari. Questa esplorazione è mirata a sintetizzare queste probabilità in un insieme conciso di caratteristiche.

Il passo finale nel processo di Ghostbuster coinvolge l’alimentazione di queste caratteristiche estratte in un classificatore lineare, come esplicato nella Sezione 4 della metodologia. Il risultato è un modello che ottiene costantemente un impressionante punteggio F1 del 99,0 nella classificazione in dominio. In particolare, Ghostbuster supera sia DetectGPT che GPTZero con una media di 23,7 punti F1, sottolineando la sua efficacia nell’identificare testi generati da intelligenza artificiale in vari contesti e scenari.

Image Credit: BAIR

I risultati

Il impegno di Ghostbuster verso la generalizzazione robusta è un aspetto cruciale del suo design. Per garantire la sua efficacia in diversi scenari di generazione di testo, Ghostbuster è stato sottoposto a una valutazione approfondita. Questa valutazione ha compreso una ricerca completa di vari fattori, tra cui diversi domini, modelli di linguaggio e prompt. Il processo di valutazione è stato facilitato dall’incorporazione di nuovi set di dati raccolti che comprendevano saggi, articoli di notizie, storie e altro.

Quando addestrato e testato sullo stesso dominio, Ghostbuster ha ottenuto un punteggio F1 del 99,0 su tutti e tre i set di dati, superando GPTZero con un margine di 5,9 punti F1 e DetectGPT con 41,6 punti F1. Fuori dal dominio, Ghostbuster ha raggiunto una media di 97,0 punti F1 su tutte le condizioni, superando DetectGPT di 39,6 punti F1 e GPTZero di 7,5 punti F1. Il nostro punto di riferimento RoBERTa ha ottenuto un punteggio F1 del 98,1 quando valutato in-domain su tutti i set di dati, ma le sue prestazioni di generalizzazione erano inconsistenti. Ghostbuster ha superato il punto di riferimento RoBERTa in tutti i domini tranne la scrittura creativa fuori dal dominio ed ha avuto molto migliori prestazioni fuori dal dominio rispetto a RoBERTa in media (margine di 13,8 punti F1).

Image Credit: BAIR

Ghostbuster è uno dei metodi più creativi mai creati per la rilevazione di contenuti generati dall’intelligenza artificiale. Il metodo sembra essere abbastanza generico da poter essere applicato a diversi tipi di LLM. Certamente, sarebbe interessante vedere implementazioni di Ghostbuster applicate a diversi strumenti di rilevamento.