Perso nella traduzione di DALL-E 3

Perduto nella traduzione di DALL-E 3

Generare immagini AI in diverse lingue porta a risultati diversi

Immagini generate utilizzando DALL-E 3 nelle sei lingue per la frase 'un'immagine di una persona'. Figura creata dall'autore.

Introduzione

OpenAI ha recentemente lanciato DALL-E 3, l’ultima versione dei loro modelli di generazione di immagini AI.

Ma come evidenziano la recente copertura mediatica e la ricerca, questi modelli AI sono affetti da pregiudizi e stereotipi. Ad esempio, modelli di generazione di immagini AI come Stable Diffusion e Midjourney tendono ad amplificare gli stereotipi esistenti riguardanti razza, genere e identità nazionale.

Tuttavia, la maggior parte di questi studi testa principalmente i modelli utilizzando prompt in inglese. Ciò solleva la domanda: come risponderebbero questi modelli a prompt non in lingua inglese?

In questo articolo, approfondisco il comportamento di DALL-E 3 con prompt provenienti da lingue diverse. Desumendo dai temi dei miei lavori precedenti, offro una prospettiva multilingue sul più recente modello di generazione di immagini AI.

Come funziona DALL-E 3: Trasformazione dei prompt

A differenza dei modelli precedenti di generazione di immagini AI, questa nuova versione del modello DALL-E non genera direttamente ciò che si digita. Invece, DALL-E 3 incorpora trasformazioni automatiche dei prompt, il che significa che trasforma il prompt originale in una versione diversa e più descrittiva.

Un esempio di trasformazione del prompt dal paper di OpenAI che illustra il processo di miglioramento delle didascalie: Migliorare la generazione di immagini con didascalie migliori. Figura creata dall'autore.

Secondo la DALL-E 3 System Card, ci sono stati alcuni motivi per fare questo:

  • Migliorare le didascalie per rendere più descrittive
  • Rimuovere i nomi di figure pubbliche
  • Specificare descrizioni più diverse di persone generate (ad esempio, prima delle trasformazioni del prompt, le persone generate tendevano ad essere principalmente bianche, giovani e femminili)

Quindi, il processo di generazione di immagini appare così:

  1. Si digita il proprio prompt in DALL-E 3 (disponibile tramite ChatGPT Plus)
  2. Il prompt viene modificato in quattro prompt trasformati diversi
  3. DALL-E 3 genera un’immagine basata su ciascuno dei prompt trasformati