OpenAI è citato in giudizio dagli autori per aver utilizzato i loro libri per addestrare ChatGPT senza consenso

OpenAI citato in giudizio per utilizzo non autorizzato dei libri degli autori per addestrare ChatGPT

Due autori hanno intentato una causa contro OpenAI, sostenendo che l’azienda abbia utilizzato il loro lavoro per addestrare ChatGPT. La questione riguarda il fatto che i loro libri erano protetti da copyright e gli autori sostengono che OpenAI non ha ottenuto il consenso per utilizzare il loro lavoro per l’addestramento del LLM.

Gli autori Paul Tremblay e Mona Award affermano che ChatGPT può generare “riassunti molto accurati” delle loro opere secondo la suite. Continuano a sostenere che questi riassunti erano “possibili solo” se ChatGPT era stato addestrato sulle loro opere, cosa che considerano una violazione della legge sul copyright.

Gli avvocati sia di OpenAI che degli autori che hanno presentato la causa non hanno risposto alle domande di CNBC. Il metodo con cui vengono addestrati LLM come ChatGPT è attraverso l’addestramento su enormi quantità di dati testuali, di solito raccolti attraverso il crawling del web. Questo naturalmente include siti come Wikipedia e libri archiviati.

La causa, presentata a San Francisco, sostiene che “gran parte” del materiale nei dati di addestramento di OpenAI si basa su materiali protetti da copyright. Questo naturalmente include libri dei due autori. Ma c’è un problema importante con la causa. E cioè provare esattamente come e dove ChatGPT ha ottenuto i dati per l’addestramento.

Quindi potrebbe risultare difficile mostrare prove di danni senza queste informazioni. Finora, la denuncia fa riferimento a esempi dei riassunti che ChatGPT è stato in grado di generare. Si fa anche notare che il LLM commette errori. Ma i due autori affermano che la maggior parte dei riassunti è accurata, cosa che nella loro affermazione “ChatGPT conserva conoscenza di opere specifiche nel set di dati di addestramento”.

La denuncia prosegue dicendo: “In nessun momento ChatGPT ha riprodotto alcuna delle informazioni di gestione del copyright che gli attori hanno incluso nelle loro opere pubblicate.” Questa denuncia è molto simile a quella degli artisti. L’anno scorso, c’è stata una forte pressione da parte di artisti che hanno affermato che strumenti AI come Stable Diffusion, DALL-E 2 e altri erano stati addestrati sulle loro opere d’arte senza consenso.

Ci vorrà del tempo prima che la causa vada avanti. E come verrà decisa in tribunale potrebbe cambiare il modo in cui vengono addestrati i LLM in futuro.

Nota dell’Editore: Sei pronto a scoprire le ultime novità nell’ambito dell’IA generativa? Unisciti a noi per il summit di un giorno sull’IA generativa. Vai oltre l’hype e approfondisci questa tecnologia all’avanguardia. Registrati ora gratuitamente e sblocca il potere dell’IA generativa.