Google affronta una causa legale che afferma un uso improprio dei dati per addestrare i suoi LLMs

Google affronta causa legale uso improprio dati addestrare LLMs

In una nuova causa legale, Google è accusata di abuso dei dati personali per addestrare i suoi Large Language Models che alimentano i suoi prodotti di intelligenza artificiale. Questa causa afferma che il gigante tecnologico raccoglie i dati di milioni di utenti senza il loro consenso, violando le leggi sul copyright nel processo di addestramento dei suoi prodotti di intelligenza artificiale.

La causa si rivolgerà anche alla sua società madre, Alphabet, e a DeepMind. Lo studio legale Clarkson Law Firm, che ha intentato una causa simile contro OpenAI, produttrice di ChatGPT, il mese scorso, ha presentato la causa in un tribunale federale in California. Afferma che Google “sta rubando segretamente tutto ciò che è stato creato e condiviso su Internet da centinaia di milioni di americani”.

Afferma anche che prodotti come Bard sono stati addestrati con questi dati. Ma la causa va oltre. Afferma anche che Google possiede “praticamente l’intera impronta digitale”, che naturalmente include “opere creative e protette da copyright” per costruire i suoi prodotti di intelligenza artificiale.

In una dichiarazione a CNN, l’avvocato generale di Google, Halimah DeLaine Prado, ha definito le accuse della causa “infondate”. Ha continuato dicendo: “Da anni abbiamo chiarito che utilizziamo dati provenienti da fonti pubbliche, come informazioni pubblicate sul web e set di dati pubblici, per addestrare i modelli di intelligenza artificiale di servizi come Google Translate, in modo responsabile e in linea con i nostri principi sull’intelligenza artificiale”.

Il signor Halimah DeLaine Prado ha continuato a sottolineare l’esistenza di una precedente normativa che disciplina le leggi sull’utilizzo, affermando: “La legge americana sostiene l’utilizzo di informazioni pubbliche per creare nuovi utilizzi vantaggiosi, e siamo ansiosi di confutare queste accuse infondate”.

La questione del web scraping di informazioni per addestrare modelli di intelligenza artificiale è stata in fermento da mesi. Questo problema è diventato sempre più rilevante con l’esplosione di strumenti e prodotti basati sull’intelligenza artificiale sul mercato. Le questioni legate al copyright, alla privacy e altro sono diventate preoccupazioni crescenti nei circoli che discutono l’intelligenza artificiale responsabile.

Tim Giordano, uno degli avvocati dello studio Clarkson che ha intentato la causa contro Google, ha detto a CNN: “Google deve capire che ‘pubblicamente disponibile’ non ha mai significato ‘libero da utilizzare per qualsiasi scopo’… Le nostre informazioni personali e i nostri dati sono la nostra proprietà ed è preziosa, e nessuno ha il diritto di prenderla semplicemente e usarla per qualsiasi scopo”.

Giordano ha poi fatto una distinzione tra l’indicizzazione delle ricerche di Google e il modo in cui vengono utilizzati i dati per addestrare il suo modello. Ha affermato che, per quanto riguarda l’indicizzazione, Google può “mostrare un collegamento attribuito al tuo lavoro che può effettivamente spingere qualcuno ad acquistarlo o interagire con esso”. D’altra parte, quando si tratta di web scraping, si tratta di “una versione alternativa del lavoro che altera radicalmente gli incentivi per chiunque abbia bisogno di acquistare il lavoro”.

La causa legale chiede a Google di bloccare temporaneamente l’accesso commerciale e lo sviluppo commerciale degli strumenti di intelligenza artificiale generativa di Google. Se questa ingiunzione venisse concessa, potrebbe mettere in pausa i piani di espansione dell’intelligenza artificiale di Google nel 2023.

La causa legale chiede anche danni non specificati e pagamenti come compensazione finanziaria alle persone i cui dati la società afferma che Google ha utilizzato in modo improprio.