OpenAI querelata dagli autori per aver utilizzato i loro libri per addestrare ChatGPT senza consenso

OpenAI querelata per uso non autorizzato di libri da parte degli autori per addestrare ChatGPT

Due autori hanno presentato una causa contro OpenAI, sostenendo che l’azienda abbia utilizzato il loro lavoro per addestrare ChatGPT. La questione riguarda il fatto che i loro libri erano protetti da copyright e gli autori affermano che OpenAI non ha ottenuto il consenso per utilizzare il loro lavoro per addestrare l’LLM.

Gli autori Paul Tremblay e Mona Award sostengono che ChatGPT sia in grado di generare “riassunti molto accurati” delle loro opere secondo i documenti legali. Continuano a sostenere che questi riassunti erano “possibili solo” se ChatGPT fosse stato addestrato sulle loro opere, che considerano una violazione del diritto d’autore.

Gli avvocati di OpenAI e degli autori che hanno presentato la causa non hanno risposto alle domande di CNBC. Il metodo con cui LLM come ChatGPT si addestrano consiste nell’addestrarsi su enormi quantità di dati testuali raccolti solitamente attraverso il web. Ciò include ovviamente siti come Wikipedia e libri archiviati.

L’azione legale, presentata a San Francisco, sostiene che “gran parte” del materiale nei dati di addestramento di OpenAI si basi su materiali protetti da copyright. Questo comprende naturalmente i libri dei due autori. Ma c’è un problema importante con la causa, ossia provare esattamente come e dove ChatGPT abbia acquisito i dati per l’addestramento.

Pertanto, potrebbe essere difficile dimostrare i danni senza queste informazioni. Finora, la denuncia fa riferimento a esempi dei riassunti che ChatGPT è stato in grado di generare. Si fa anche notare che l’LLM commette errori nell’ottenere informazioni. Ma i due autori affermano che la maggior parte dei riassunti è accurata, il che, secondo loro, significa che “ChatGPT conserva conoscenza delle opere specifiche presenti nel set di dati di addestramento”.

La denuncia prosegue dicendo: “In nessun momento ChatGPT ha riprodotto alcuna delle informazioni sulla gestione del copyright incluse nelle opere pubblicate dai querelanti”. Questa denuncia è molto simile a quella degli artisti. L’anno scorso, gli artisti hanno protestato affermando che strumenti di intelligenza artificiale come Stable Diffusion, DALL-E 2 e altri erano stati addestrati sulle loro opere d’arte senza il loro consenso.

Ci vorrà del tempo prima che la causa prosegua. E come verrà decisa in tribunale potrebbe cambiare il modo in cui gli LLM saranno addestrati in futuro.

Nota dell’editore: Sei pronto a conoscere le ultime novità sull’intelligenza artificiale generativa? Unisciti a noi per il summit di un giorno sull’intelligenza artificiale generativa. Vai oltre l’hype e approfondisci questa tecnologia all’avanguardia. Registrati ora gratuitamente e scopri il potere dell’intelligenza artificiale generativa.