Google svela l’utilizzo di dati pubblici web nell’addestramento dell’IA

Google utilizza dati pubblici web per addestrare l'intelligenza artificiale.

In un recente aggiornamento della sua politica sulla privacy, Google ha ammesso apertamente di utilizzare informazioni pubblicamente disponibili dal web per addestrare i suoi modelli di intelligenza artificiale. Questa divulgazione, individuata da Gizmodo, include servizi come Bard e Cloud AI. La portavoce di Google, Christa Muldoon, ha dichiarato a The Verge che l’aggiornamento chiarisce semplicemente che anche i nuovi servizi come Bard sono inclusi in questa pratica e che Google incorpora principi di privacy e salvaguardie nello sviluppo delle sue tecnologie di intelligenza artificiale.

La trasparenza nelle pratiche di addestramento dell’IA è un passo nella giusta direzione, ma solleva anche una serie di domande. Come garantisce Google la privacy delle persone quando utilizza dati pubblicamente disponibili? Quali misure sono in atto per prevenire un uso improprio di questi dati?

Le implicazioni dei metodi di addestramento dell’IA di Google

La politica sulla privacy aggiornata afferma ora che Google utilizza le informazioni per migliorare i suoi servizi e sviluppare nuovi prodotti, funzionalità e tecnologie a vantaggio degli utenti e del pubblico. La politica specifica anche che l’azienda può utilizzare informazioni pubblicamente disponibili per addestrare i modelli di IA di Google e creare prodotti e funzionalità come Google Translate, Bard e le capacità di Cloud AI.

Tuttavia, la politica non chiarisce come Google eviterà che materiali protetti da copyright vengano inclusi nel pool di dati utilizzato per l’addestramento. Molti siti web accessibili pubblicamente hanno politiche che vietano la raccolta di dati o lo “scraping” del web a fini di addestramento di grandi modelli di linguaggio e di altri strumenti di intelligenza artificiale. Questo approccio potrebbe potenzialmente entrare in conflitto con regolamenti globali come il GDPR che proteggono le persone dallo sfruttamento dei loro dati senza il loro esplicito consenso.

L’uso di dati pubblicamente disponibili per l’addestramento dell’IA non è intrinsecamente problematico, ma lo diventa quando viola le leggi sul copyright e la privacy individuale. È un equilibrio delicato che aziende come Google devono affrontare con attenzione.

L’impatto più ampio delle pratiche di addestramento dell’IA

L’uso di dati pubblicamente disponibili per l’addestramento dell’IA è stato un tema controverso. Sistemi di IA generativi popolari come il GPT-4 di OpenAI si sono mostrati restii riguardo alle loro fonti di dati e se includano post sui social media o opere protette da copyright di artisti e autori umani. Questa pratica si colloca attualmente in una zona grigia legale, suscitando varie cause legali e spingendo i legislatori di alcune nazioni a introdurre leggi più severe per regolamentare come le aziende di IA raccolgono e utilizzano i loro dati di addestramento.

Il più grande editore di giornali degli Stati Uniti, Gannett, sta citando in giudizio Google e la sua azienda madre, Alphabet, sostenendo che i progressi nella tecnologia dell’IA hanno aiutato il gigante delle ricerche a monopolizzare il mercato della pubblicità digitale. Nel frattempo, piattaforme social come Twitter e Reddit hanno adottato misure per impedire ad altre aziende di raccogliere liberamente i loro dati, generando reazioni negative nelle rispettive comunità.

Questi sviluppi sottolineano la necessità di linee guida etiche solide nell’IA. Man mano che l’IA continua a evolversi, è fondamentale che le aziende bilancino l’avanzamento tecnologico con le considerazioni etiche. Ciò include il rispetto delle leggi sul copyright, la protezione della privacy individuale e garantire che l’IA porti benefici a tutta la società, non solo a pochi selezionati.

L’aggiornamento recente della politica sulla privacy di Google ha portato alla luce le pratiche di addestramento dell’IA dell’azienda. Tuttavia, solleva anche domande sulle implicazioni etiche dell’uso di dati pubblicamente disponibili per l’addestramento dell’IA, sulla potenziale violazione delle leggi sul copyright e sull’impatto sulla privacy degli utenti. Mentre procediamo, è essenziale continuare questa conversazione e lavorare verso un futuro in cui l’IA sia sviluppata e utilizzata in modo responsabile.