Migliori pratiche per l’arricchimento dei dati

Migliori pratiche per arricchimento dati

Costruire un approccio responsabile alla raccolta dei dati con il Partnership on AI

Presso DeepMind, il nostro obiettivo è assicurarci che tutto ciò che facciamo rispetti gli standard più elevati di sicurezza ed etica, in linea con i nostri Principi Operativi. Uno dei punti di partenza più importanti è rappresentato dal modo in cui raccogliamo i nostri dati. Negli ultimi 12 mesi, abbiamo collaborato con il Partnership on AI (PAI) per valutare attentamente queste sfide e abbiamo sviluppato insieme le migliori pratiche e i processi standardizzati per una raccolta responsabile dei dati umani.

Raccolta dei dati umani

Oltre tre anni fa, abbiamo creato il nostro Comitato Etico per la Ricerca Comportamentale Umana (HuBREC), un gruppo di governance modellato su comitati accademici di revisione istituzionale (IRB), come quelli presenti negli ospedali e nelle università, con l’obiettivo di proteggere la dignità, i diritti e il benessere dei partecipanti umani coinvolti nei nostri studi. Questo comitato sovrintende la ricerca comportamentale che coinvolge esperimenti con esseri umani come soggetti di studio, ad esempio indagando su come gli esseri umani interagiscono con i sistemi di intelligenza artificiale (AI) in un processo decisionale.

Oltre ai progetti che coinvolgono la ricerca comportamentale, la comunità di AI si è sempre più impegnata in sforzi che coinvolgono l'”arricchimento dei dati” – attività svolte dagli esseri umani per addestrare e convalidare i modelli di apprendimento automatico, come l’etichettatura dei dati e la valutazione del modello. Mentre la ricerca comportamentale si basa spesso su partecipanti volontari che sono oggetto di studio, l’arricchimento dei dati coinvolge persone pagate per completare attività che migliorano i modelli di intelligenza artificiale.

Questi tipi di attività vengono di solito condotte su piattaforme di crowdsourcing, sollevando spesso questioni etiche legate al pagamento, al benessere e all’equità dei lavoratori, che possono mancare delle necessarie linee guida o sistemi di governance per garantire standard sufficienti. Con l’accelerazione dello sviluppo di modelli sempre più sofisticati nei laboratori di ricerca, la dipendenza dalle pratiche di arricchimento dei dati probabilmente aumenterà, insieme alla necessità di una guida più forte.

Come parte dei nostri Principi Operativi, ci impegniamo a sostenere e contribuire alle migliori pratiche nei settori della sicurezza e dell’etica dell’AI, inclusa l’equità e la privacy, per evitare risultati non voluti che creano rischi di danni.

Le migliori pratiche

In seguito al recente white paper di PAI sulla Responsabile Acquisizione di Servizi di Arricchimento dei Dati, abbiamo collaborato per sviluppare le nostre pratiche e i nostri processi per l’arricchimento dei dati. Ciò ha incluso la creazione di cinque passaggi che i praticanti di AI possono seguire per migliorare le condizioni di lavoro delle persone coinvolte nelle attività di arricchimento dei dati (per ulteriori dettagli, si prega di visitare le Linee Guida di PAI per l’Acquisizione di Dati di Arricchimento).

  1. Selezionare un modello di pagamento appropriato e assicurarsi che tutti i lavoratori siano pagati oltre il salario minimo locale.
  2. Progettare e condurre un test pilota prima di lanciare un progetto di arricchimento dei dati.
  3. Individuare i lavoratori appropriati per il compito desiderato.
  4. Fornire istruzioni verificate e/o materiali di formazione per i lavoratori da seguire.
  5. Stabilire meccanismi di comunicazione chiari e regolari con i lavoratori.

Insieme, abbiamo creato le politiche e le risorse necessarie, raccogliendo più round di feedback dai nostri team interni di legale, dati, sicurezza, etica e ricerca, prima di testarle su un piccolo numero di progetti di raccolta dati e successivamente di implementarle in tutta l’organizzazione.

Questi documenti forniscono maggiore chiarezza su come impostare al meglio le attività di arricchimento dei dati presso DeepMind, migliorando la fiducia dei nostri ricercatori nella progettazione e nell’esecuzione degli studi. Ciò non solo ha aumentato l’efficienza dei nostri processi di approvazione e lancio, ma, cosa importante, ha migliorato l’esperienza delle persone coinvolte nelle attività di arricchimento dei dati.

Ulteriori informazioni sulle pratiche responsabili di arricchimento dei dati e su come le abbiamo integrate nei nostri processi esistenti sono spiegate nel recente studio di caso di PAI, Implementazione di Pratiche Responsabili di Arricchimento dei Dati presso un Sviluppatore di AI: l’Esempio di DeepMind. PAI fornisce anche risorse utili e materiali di supporto per i praticanti di AI e le organizzazioni che cercano di sviluppare processi simili.

Guardando avanti

Anche se queste migliori pratiche sono alla base del nostro lavoro, non dovremmo affidarci solo ad esse per garantire che i nostri progetti rispettino gli standard più elevati di benessere e sicurezza dei partecipanti o dei lavoratori nella ricerca. Ogni progetto presso DeepMind è diverso, ecco perché abbiamo un processo di revisione dei dati umani dedicato che ci permette di interagire continuamente con i team di ricerca per identificare e mitigare i rischi caso per caso.

Questo lavoro si propone di essere una risorsa per altre organizzazioni interessate a migliorare le loro pratiche di arricchimento dei dati, e speriamo che questo porti a conversazioni intersettore che potrebbero sviluppare ulteriormente queste linee guida e risorse per i team e i partner. Attraverso questa collaborazione speriamo anche di suscitare una discussione più ampia su come la comunità dell’IA possa continuare a sviluppare norme di raccolta responsabile dei dati e costruire collettivamente migliori standard del settore.

Per saperne di più sulle nostre Linee guida operative.