Cosa succede quando la maggior parte dei contenuti online diventa generata da intelligenza artificiale?

Quando la maggior parte dei contenuti online diventa generata da intelligenza artificiale cosa accade?

Scopri come i modelli generativi si deteriorano quando vengono addestrati con i dati che generano e cosa fare al riguardo

Spirale - Foto di Ludde Lorentz su Unsplash

Introduzione

I recenti progressi nell’Intelligenza Artificiale Generativa hanno introdotto modelli di IA pubblicamente disponibili in grado di produrre testi, immagini e suoni estremamente realistici e complessi che rivoluzionano la creazione di contenuti.

Questi modelli sono stati addestrati su grandi set di dati estratti dal web. Nel caso dei dati testuali, ad esempio, i Large Language Models (LLM) come ChatGPT sono stati principalmente addestrati su testi generati dagli umani e trovati online.

I modelli generativi hanno guadagnato grande notorietà e rapida adozione nella società, tanto che sempre più contenuti generati da IA finiscono su Internet, che è la principale fonte dei loro dati di addestramento.

Vediamo qui una situazione che si ripete: i modelli generativi saranno inevitabilmente addestrati su dati sintetici prodotti dall’IA generativa e non dagli esseri umani. Ciò ci porta alla domanda: se ciò accade, come si comporteranno i modelli?

Modelli generativi e degenerazione

Cosa succederà a GPT-{n} una volta che i LLM contribuiranno gran parte del linguaggio trovato online?

Questa è la domanda posta da un team di ricercatori che ha pubblicato l’articolo La maledizione della ricorsione: l’addestramento sui dati generati fa dimenticare ai modelli (I. Shumailov et al., 2023).

Gli autori sperimentano l’apprendimento dei modelli dai dati che generano attraverso diverse iterazioni. Applicano questo approccio su Gaussian Mixture Models (GMM), Variational Autoencoders (VAE) e Large Language Models (LLM). Per i tre tipi di modelli, ciò porta a un fenomeno che chiamano “collasso del modello”:

un processo degenerativo per il quale, nel tempo, i modelli dimenticano la vera distribuzione dei dati sottostanti, anche in assenza di cambiamenti nella distribuzione nel tempo.

Il collasso del modello si caratterizza per il comportamento dei modelli che dimenticano le code delle distribuzioni reali (cioè gli eventi improbabili, meno frequenti ma importanti) e sovrarappresentano il centro della distribuzione. Man mano che il processo si ripete, i modelli convergono verso…