Ricercatori dell’Università di Washington e di Princeton presentano un insieme di dati di rilevamento dei dati di pre-formazione WIKIMIA e un nuovo approccio di apprendimento automatico MIN-K% PROB.

Ricercatori dell'Università di Washington e di Princeton presentano l'insieme di dati di rilevamento dei dati di pre-formazione WIKIMIA e un nuovo approccio di apprendimento automatico MIN-K% PROB.

I Large Language Models (LLM) sono modelli potenti in grado di elaborare grandi volumi di dati testuali. Sono addestrati su un corpus di testi massiccio che va da poche centinaia di GB a addirittura TB. Date le dimensioni di questi dati, diventa essenziale scoprire se i dati di addestramento contengono testi problematici come materiale protetto da copyright o informazioni personali identificabili. Inoltre, a causa del ritmo con cui il corpus di addestramento è cresciuto, gli sviluppatori di questi LLM sono diventati più restii a divulgarne la composizione completa.

In questo documento, un gruppo di ricercatori dell’Università di Washington e della Princeton University ha studiato il problema sopra menzionato. Dato un pezzo di testo e un accesso black-box a un LLM, i ricercatori hanno cercato di determinare se il modello è stato addestrato sul testo fornito. Hanno introdotto un benchmark chiamato WIKIMIA che include sia dati preaddestrati che dati non preaddestrati per supportare il gold truth. Hanno anche introdotto un nuovo metodo di rilevazione chiamato MIN-K% PROB che identifica parole anomale con probabilità basse nel LLM.

Avere un benchmark affidabile è fondamentale per affrontare le sfide dell’individuazione di testi problematici nell’addestramento. WIKIMIA è un benchmark dinamico che valuta automaticamente i metodi di rilevazione su qualsiasi LLM preaddestrato appena rilasciato. Il metodo MIN-K% PROB si basa sull’ipotesi che il testo non visto sia più probabilmente composto da parole che il LLM non conosce bene, e MIN-K% PROB calcola la media delle probabilità di queste parole insolite.

Il funzionamento di MIN-K% PROB è il seguente: supponiamo di avere un testo X e dobbiamo determinare se il LLM è stato addestrato su X. Il metodo utilizza il LLM per calcolare le probabilità di ogni token nel testo fornito. Quindi seleziona il k% di token con probabilità minime e calcola la loro log-verosimiglianza media. Un valore più alto del valore stesso indica che è probabile che il testo X sia nei dati di preaddestramento.

I ricercatori hanno applicato il metodo a tre scenari reali: rilevamento di libri protetti da copyright, rilevamento di esempi contaminati in avallo e audit della privacy dell’apprendimento automatico. Hanno preso un set di test di 10.000 brevi estratti di testo da 100 libri protetti da copyright e hanno scoperto che circa il 90% aveva un tasso di contaminazione superiore al 50%. In particolare, secondo i loro risultati, il modello GPT-3 conteneva testi da 20 libri protetti da copyright.

Per rimuovere informazioni personali e dati protetti da copyright dai LLM, utilizziamo il metodo di apprendimento automatico. I ricercatori hanno utilizzato il metodo MIN-K% PROB e hanno scoperto che i LLM possono ancora generare contenuti protetti da copyright simili anche dopo avere rimosso i libri protetti da copyright.

In conclusione, MIN-K% PROB è un nuovo metodo per determinare se un LLM è stato addestrato su dati protetti da copyright e personali. I ricercatori hanno verificato l’efficacia dei loro metodi utilizzando studi di casi reali e hanno trovato forti evidenze che il modello GPT-3 potrebbe essere stato addestrato su libri protetti da copyright. Hanno constatato che questo metodo è una soluzione costantemente efficace per individuare testi problematici nell’addestramento e rappresenta un significativo passo avanti verso una maggiore trasparenza e responsabilità dei modelli.