I ricercatori di Microsoft propongono la sintesi visiva responsabile a vocabolario aperto (ORES) con il framework di intervento a due fasi.

I ricercatori di Microsoft propongono un framework di sintesi visiva responsabile a vocabolario aperto (ORES) in due fasi.

I modelli di sintesi visiva possono produrre immagini sempre più realistiche grazie all’avanzamento dell’addestramento dei modelli su larga scala. L’IA responsabile è diventata sempre più cruciale a causa del crescente potenziale di utilizzo di immagini sintetizzate, in particolare per eliminare elementi visivi specifici durante la sintesi, come il razzismo, la discriminazione sessuale e la nudità. Tuttavia, per due motivi fondamentali, la sintesi visiva responsabile è un’impresa molto difficile. In primo luogo, affinché le immagini sintetizzate siano conformi agli standard degli amministratori, parole come “Bill Gates” e “fondatore di Microsoft” non devono comparire. In secondo luogo, le parti non proibite di una richiesta dell’utente devono essere sintetizzate in modo accurato per soddisfare i criteri dell’utente.

Le tecniche esistenti di sintesi visiva responsabile possono essere suddivise in tre categorie principali per risolvere i problemi sopra menzionati: perfezionamento degli input, perfezionamento degli output e perfezionamento dei modelli. La prima strategia, il perfezionamento degli input, si concentra sulla pre-elaborazione delle query degli utenti per rispettare le richieste degli amministratori, ad esempio creando una lista nera per filtrare gli elementi indesiderabili. In un ambiente con un vocabolario aperto, è difficile per la lista nera garantire l’eliminazione totale di tutti gli elementi indesiderabili. Il secondo metodo, il perfezionamento degli output, prevede il post-elaborazione dei filmati creati per rispettare le regole degli amministratori, ad esempio identificando e rimuovendo contenuti non adatti al lavoro (NSFW) per garantire l’idoneità dell’output.

È difficile identificare idee visive a vocabolario aperto con questa tecnica, che dipende da un modello di filtraggio pre-addestrato su determinati concetti. La terza strategia, il perfezionamento dei modelli, cerca di ottimizzare il modello nel suo complesso o un componente specifico per comprendere e soddisfare i criteri degli amministratori, migliorando la capacità del modello di seguire le linee guida previste e fornire materiale coerente con le regole specificate. Tuttavia, i pregiudizi nei dati di ottimizzazione pongono spesso limiti a queste tecniche, rendendo difficile raggiungere capacità a vocabolario aperto. Ciò solleva la seguente questione: come possono gli amministratori vietare efficacemente la creazione di idee visive arbitrarie raggiungendo una sintesi visiva responsabile a vocabolario aperto? Ad esempio, un utente potrebbe richiedere di produrre “Il fondatore di Microsoft sta bevendo vino in un pub” nella Figura 1.

Figura 1. Sintesi visiva responsabile a vocabolario aperto

A seconda della geografia, del contesto e delle circostanze di utilizzo, è necessario evitare diversi concetti visivi per una sintesi visiva appropriata.

Quando l’amministratore inserisce idee come “Bill Gates” o “alcol” come vietate, l’output responsabile dovrebbe chiarire concetti formulati in modo simile al linguaggio comune. I ricercatori di Microsoft suggeriscono un nuovo lavoro chiamato Sintesi Visiva Responsabile a Vocabolario Aperto (ORES) basato sulle osservazioni sopra menzionate, in cui il modello di sintesi visiva può evitare elementi visivi arbitrari non espressamente dichiarati, consentendo agli utenti di inserire le informazioni desiderate. Viene quindi introdotta la struttura a due stadi di intervento (TIN). Essa può sintetizzare con successo immagini evitando determinati concetti e, il più possibile, rispettando la richiesta dell’utente mediante l’invio di 1) riscrittura con istruzioni apprendibili utilizzando un modello di linguaggio su larga scala (LLM) e 2) sintesi con intervento rapido su un modello di sintesi di diffusione.

Sotto la guida di una query apprendibile, TIN applica specificamente CHATGPT per riscrivere la domanda dell’utente in una query a basso rischio. Nella fase di sintesi intermedia, TIN interviene nella sintesi sostituendo la query dell’utente con la query a basso rischio. Sviluppano un benchmark, modelli di riferimento associati, BLACK LIST e NEGATIVE PROMPT, e un dataset accessibile pubblicamente. Combinano modelli di linguaggio su larga scala e modelli di sintesi visiva. A loro conoscenza, sono i primi a studiare la sintesi visiva responsabile in uno scenario a vocabolario aperto.

Nell’allegato, il loro codice e dataset sono accessibili a tutti. Hanno apportato i seguenti contributi:

• Con prove della sua validità, suggeriscono il nuovo lavoro di Sintesi Visiva Responsabile a Vocabolario Aperto (ORES). Sviluppano un benchmark con modelli di riferimento appropriati, stabiliscono un dataset accessibile pubblicamente e così via.

• Come rimedio efficace per ORES, forniscono il framework di intervento a due fasi (TIN), che comporta

1) Riscrittura con insegnamento apprendibile tramite un modello di linguaggio su larga scala (LLM)

2) Sintesi con intervento rapido tramite un modello di sintesi a diffusione

• La ricerca dimostra che il loro approccio riduce notevolmente la probabilità di sviluppo di modelli inappropriati. Dimostrano la capacità dei LLM di sintesi visiva responsabile.