Dove sono tutte le donne?
Dove sono le donne?
Esplorazione degli squilibri nelle conoscenze storiche dei grandi modelli di linguaggio

I grandi modelli di linguaggio (LLM) come ChatGPT vengono sempre più utilizzati in ambito educativo e professionale. È importante comprendere e studiare i numerosi squilibri presenti in tali modelli prima di integrarli nelle applicazioni esistenti e nella nostra vita quotidiana.
Uno degli squilibri che ho studiato nel mio articolo precedente riguardava gli eventi storici. Ho analizzato i LLM per comprendere quali conoscenze storiche codificassero sotto forma di eventi storici importanti. Ho scoperto che codificavano un serio squilibrio occidentale nella comprensione degli eventi storici principali.
Sulla stessa linea, in questo articolo, approfondisco la comprensione dei modelli di linguaggio riguardo alle figure storiche importanti. Ho chiesto a due LLM chi fossero le persone storiche più importanti nella storia. Ho ripetuto questo processo 10 volte per 10 lingue diverse. Alcuni nomi, come Gandhi e Gesù, sono apparsi estremamente frequentemente. Altri nomi, come Marie Curie o Cleopatra, sono apparsi meno frequentemente. Rispetto al numero di nomi maschili generati dai modelli, c’erano pochissimi nomi femminili.
La domanda più grande che mi sono posto è stata: Dove sono tutte le donne?
- Potenziare l’IA su dispositivo Qualcomm e Meta collaborano con la tecnologia Llama 2
- CatBoost Una soluzione per costruire modelli con dati categorici
- Microsoft rilascia TypeChat una libreria di intelligenza artificiale che semplifica la creazione di interfacce di linguaggio naturale utilizzando i tipi.
Continuando il tema della valutazione degli squilibri storici codificati dai modelli di linguaggio, ho analizzato i modelli GPT-4 di OpenAI e Claude di Anthropic riguardo alle figure storiche principali. In questo articolo, mostro come entrambi i modelli presentino:
- Squilibrio di genere: Entrambi i modelli predicono in modo sproporzionato figure storiche maschili. GPT-4 ha generato nomi di figure storiche femminili il 5,4% delle volte e Claude l’1,8% delle volte. Questo pattern si è ripetuto in tutte le 10 lingue.
- Squilibrio geografico: Indipendentemente dalla lingua in cui è stato sollecitato il modello, c’era un’asimmetria nella previsione delle figure storiche occidentali. GPT-4 ha generato figure storiche europee il 60% delle volte e Claude il 52% delle volte.
- Squilibrio linguistico: Alcune lingue sono state più colpite da squilibri di genere o geografici. Ad esempio, quando sollecitati in russo, sia GPT-4 che Claude non hanno generato alcuna donna in tutti i miei esperimenti. Inoltre, la qualità linguistica è stata inferiore per alcune lingue. Ad esempio, quando sollecitati in arabo, i modelli erano più propensi a rispondere in modo errato generando…