OpenRAIL Verso framework di licenza AI aperti e responsabili

OpenRAIL è un framework di licenza AI aperti e responsabili.

Le licenze Open & Responsible AI (“OpenRAIL”) sono licenze specifiche per l’AI che consentono l’accesso aperto, l’uso e la distribuzione degli artefatti dell’AI, richiedendo nel contempo un uso responsabile di questi ultimi. Le licenze OpenRAIL potrebbero essere per l’apprendimento automatico aperto e responsabile ciò che le attuali licenze software aperte sono per il codice e Creative Commons per i contenuti generali: uno strumento di licenza comunitaria diffuso.

Progressi nell’apprendimento automatico e in altre aree correlate all’AI sono fioriti negli ultimi anni in parte grazie all’ubiquità della cultura open source nel settore delle tecnologie dell’informazione e della comunicazione (ICT), che si è diffusa anche nella ricerca e nello sviluppo dell’apprendimento automatico. Nonostante i benefici dell’apertura come valore fondamentale per l’innovazione nel campo, eventi (non così recenti) legati alle preoccupazioni etiche e socio-economiche dello sviluppo e dell’uso dei modelli di apprendimento automatico hanno diffuso un chiaro messaggio: l’apertura non è sufficiente. I sistemi chiusi non sono la risposta, poiché il problema persiste sotto l’opacità dei processi privati di sviluppo dell’IA delle aziende.

Le licenze open source non vanno bene per tutti

L’accesso, lo sviluppo e l’uso dei modelli di apprendimento automatico sono fortemente influenzati dai regimi di licenza open source. Ad esempio, gli sviluppatori di apprendimento automatico potrebbero colloquialmente riferirsi a “open sourcing di un modello” quando rendono disponibili i suoi pesi allegando una licenza open source ufficiale o qualsiasi altra licenza software o contenuti aperti come Creative Commons. Questo pone la domanda: perché lo fanno? Gli artefatti di apprendimento automatico e il codice sorgente sono davvero così simili? Condividono abbastanza dal punto di vista tecnico da far sì che i meccanismi di governance privata (ad esempio, le licenze open source) progettati per il codice sorgente debbano anche governare lo sviluppo e l’uso dei modelli di apprendimento automatico?

La maggior parte degli attuali sviluppatori di modelli sembra pensare di sì, poiché la maggior parte dei modelli rilasciati pubblicamente ha una licenza open source (ad esempio, Apache 2.0). Vedere ad esempio l’Hugging Face Model Hub e Muñoz Ferrandis & Duque Lizarralde (2022).

Tuttavia, le prove empiriche ci stanno anche dicendo che un approccio rigido all’open sourcing e/o alle dinamiche del software libero e una credenza assiomatica nella Libertà 0 per il rilascio degli artefatti di apprendimento automatico stanno creando distorsioni socio-etiche nell’uso dei modelli di apprendimento automatico (vedi Widder et al. (2022)). In termini più semplici, le licenze open source non tengono conto della natura tecnica e delle capacità del modello come artefatto diverso dal software/codice sorgente e quindi non sono adatte a consentire un uso più responsabile dei modelli di apprendimento automatico (ad esempio, criterio 6 della Definizione Open Source), vedere anche Widder et al. (2022); Moran (2021); Contractor et al. (2020).

Se pratiche specifiche ad hoc dedicate alla documentazione, alla trasparenza e all’uso etico dei modelli di apprendimento automatico sono già presenti e migliorano ogni giorno (ad esempio, le schede del modello, i benchmark di valutazione), perché le pratiche di licenza aperta non dovrebbero essere adattate anche alle capacità e alle sfide specifiche derivanti dai modelli di apprendimento automatico?

Le stesse preoccupazioni stanno emergendo nelle pratiche di licenza di apprendimento automatico commerciali e governative. Nelle parole di Bowe & Martin (2022): “Babak Siavoshy, direttore legale generale presso Anduril Industries, si è chiesto quale tipo di termini di licenza dovrebbe applicarsi a un algoritmo di intelligenza artificiale sviluppato privatamente per la rilevazione di oggetti di computer visione e adattarlo per il targeting militare o la valutazione delle minacce? Né le licenze software commerciali né le clausole standard dei diritti dei dati DFARS rispondono adeguatamente a questa domanda, poiché nessuna delle due protegge adeguatamente gli interessi dello sviluppatore o consente al governo di acquisire conoscenze sul sistema per impiegarlo in modo responsabile”.

Se effettivamente i modelli di apprendimento automatico e il software/codice sorgente sono artefatti diversi, perché il primo viene rilasciato con licenze open source? La risposta è semplice, le licenze open source sono diventate lo standard de facto nei mercati legati al software per la condivisione aperta del codice tra le comunità software. Questo approccio “open source” allo sviluppo collaborativo del software ha permeato e influenzato lo sviluppo dell’IA e le pratiche di licenza e ha portato enormi benefici. Sia le licenze open source che le licenze Open & Responsible AI (“OpenRAIL”) potrebbero benissimo essere iniziative complementari.

Perché non progettare un insieme di meccanismi di licenza ispirati a movimenti come l’open source e guidati da un approccio basato su evidenze provenienti dal campo dell’apprendimento automatico? In effetti, esiste un nuovo insieme di quadri di licenza che saranno il veicolo per lo sviluppo, l’uso e l’accesso aperti e responsabili dell’apprendimento automatico: Open & Responsible AI Licenses (OpenRAIL).

Un cambio di paradigma nelle licenze: OpenRAIL

L’approccio OpenRAIL adottato dall’iniziativa RAIL e supportato da Hugging Face è informato e ispirato da iniziative come BigScience, Open Source e Creative Commons. Le 2 principali caratteristiche di una licenza OpenRAIL sono:

  • Aperti: queste licenze consentono l’accesso gratuito e flessibile e la ridistribuzione del materiale concesso in licenza, nonché la distribuzione di eventuali derivati dello stesso.

  • Responsabili: le licenze OpenRAIL incorporano un insieme specifico di restrizioni per l’uso dell’artefatto AI concesso in licenza in scenari critici identificati. Le restrizioni basate sull’uso sono basate su un approccio basato su prove allo sviluppo e all’uso di ML e limitazioni che costringono a tracciare una linea tra la promozione di un ampio accesso e utilizzo di ML e i potenziali costi sociali derivanti dall’uso dannoso dell’artefatto AI concesso in licenza in modo aperto. Pertanto, pur beneficiando di un accesso aperto al modello ML, l’utente non potrà utilizzare il modello per gli scenari restrittivi specificati.

L’integrazione di clausole di restrizione basate sull’uso nelle licenze AI aperte consente di controllare meglio l’uso degli artefatti AI e la capacità di applicazione da parte del concedente del modello ML, sostenendo un uso responsabile dell’artefatto AI rilasciato, nel caso in cui venga identificato un uso improprio del modello. Se le restrizioni sull’uso comportamentale non fossero presenti nelle licenze AI aperte, come potrebbero i concedenti iniziare a pensare agli strumenti legali relativi all’uso responsabile quando rilasciano in modo aperto i loro artefatti AI? OpenRAILs e RAILs sono il primo passo verso l’abilitazione di restrizioni comportamentali informate dall’etica.

E prima ancora di pensare all’applicazione, le clausole di restrizione basate sull’uso potrebbero agire come deterrente per gli utenti potenziali a fare un uso improprio del modello (ad esempio, effetto dissuasivo). Tuttavia, la mera presenza di restrizioni basate sull’uso potrebbe non essere sufficiente per garantire che non si verifichino utilizzi impropri dell’artefatto AI concesso in licenza. Ecco perché OpenRAILs richiede l’adozione successiva delle restrizioni basate sull’uso attraverso la ridistribuzione e i derivati dell’artefatto AI, come mezzo per dissuadere gli utenti dei derivati dell’artefatto AI dall’abuso di quest’ultimo.

L’effetto delle clausole di utilizzo comportamentale simili a quelle del copyleft diffonde l’esigenza del concedente originale della sua volontà e fiducia nell’uso responsabile dell’artefatto concesso in licenza. Inoltre, l’ampia adozione di clausole di utilizzo comportamentale conferisce ai distributori successivi delle versioni derivate dell’artefatto concesso in licenza la capacità di controllarne meglio l’uso. Da un punto di vista sociale, OpenRAILs sono uno strumento per consolidare una cultura informata e rispettosa della condivisione di artefatti AI, riconoscendo le loro limitazioni e i valori detenuti dai concedenti del modello.

OpenRAIL potrebbe essere per il machine learning buono quello che il licensing di software aperto è per il codice

Tre esempi di licenze OpenRAIL sono le recentemente rilasciate BigScience OpenRAIL-M, StableDiffusion’s CreativeML OpenRAIL-M e la genesi delle prime due: BigSicence BLOOM RAIL v1.0 (vedi post e FAQ qui ). Quest’ultima è stata appositamente progettata per promuovere un accesso aperto e responsabile e l’uso del modello BigScience a 176 miliardi di parametri chiamato BLOOM (e relativi punti di controllo). La licenza si colloca all’incrocio tra apertura e AI responsabile, proponendo un insieme permissivo di termini di licenza affiancati da una clausola di restrizioni basate sull’uso in cui viene stabilito un numero limitato di utilizzi restrittivi basati sulle evidenze sul potenziale che hanno i modelli di linguaggio di grandi dimensioni (Large Language Models – LLM) e sui loro rischi intrinseci e limitazioni esaminate. L’approccio OpenRAIL adottato dall’iniziativa RAIL è una conseguenza del BigScience BLOOM RAIL v1.0 che è il primo del suo genere in parallelo al rilascio di altri modelli più restrittivi con clausole di utilizzo comportamentale, come OPT-175 o SEER, che sono stati resi disponibili.

Le licenze sono la risposta di BigScience a due sfide parzialmente affrontate nello spazio delle licenze: (i) il “Modello” come qualcosa di diverso dal “codice”; (ii) l’uso responsabile del Modello. BigScience ha compiuto quel passo in più concentrando realmente la licenza sullo scenario specifico e sugli obiettivi della comunità di BigScience. Infatti, la soluzione proposta è in qualche modo nuova nel campo dell’AI: BigScience ha progettato la licenza in modo da diffondere l’uso responsabile del Modello (ad esempio, la promozione dell’uso responsabile), perché qualsiasi ridistribuzione o derivati del Modello dovranno conformarsi alle restrizioni specifiche basate sull’uso, pur potendo proporre altri termini di licenza per il resto della licenza.

OpenRAIL si allinea anche con la tendenza regolamentare in corso che propone normative specifiche per il settore per il dispiegamento, l’uso e la commercializzazione dei sistemi AI. Con l’avvento delle normative sull’AI (ad esempio, EU AI Act; proposta del Canada di una legge sull’AI e sui dati), nuovi paradigmi di licenza aperti informati dalle tendenze regolamentari dell’AI e dalle preoccupazioni etiche hanno il potenziale di essere ampiamente adottati nei prossimi anni. Rendere open source un modello senza tenere conto del suo impatto, uso e documentazione potrebbe essere motivo di preoccupazione alla luce delle nuove tendenze regolamentari sull’AI. Pertanto, gli OpenRAILs dovrebbero essere concepiti come strumenti che si articolano con le tendenze regolamentari sull’AI in corso e come parte di un sistema più ampio di strumenti di governance dell’AI, e non come l’unica soluzione che consente un uso aperto e responsabile dell’AI.

Le licenze aperte sono uno dei pilastri dell’innovazione dell’Intelligenza Artificiale. Le licenze come istituzioni sociali e legali dovrebbero essere ben curate. Non dovrebbero essere concepite come meccanismi legali tecnici onerosi, ma piuttosto come uno strumento di comunicazione tra comunità di Intelligenza Artificiale che mette insieme gli stakeholder condividendo messaggi comuni su come l’artefatto concesso in licenza può essere utilizzato.

Investiamo in una cultura della licenza dell’Intelligenza Artificiale aperta e responsabile, il futuro dell’innovazione e dell’impatto dell’Intelligenza Artificiale dipende da questo, da tutti noi, da te.

Autore: Carlos Muñoz Ferrandis

Riconoscimenti del blog: Yacine Jernite, Giada Pistilli, Irene Solaiman, Clementine Fourrier, Clément Délange