L’IA si mangerà da sola? Questo documento sull’IA introduce un fenomeno chiamato collasso del modello che si riferisce a un processo di apprendimento degenerativo in cui i modelli iniziano a dimenticare gli eventi improbabili nel tempo.

L'IA potrebbe autoconsumarsi? Il documento sull'IA parla del collasso del modello, un processo di apprendimento degenerativo in cui i modelli dimenticano gli eventi improbabili nel tempo.

Utilizzando la diffusione stabile, le immagini possono essere create solo da parole. GPT-2, GPT-3(.5) e GPT-4 hanno svolto un lavoro sorprendente su molte sfide linguistiche. Il pubblico è stato per la prima volta esposto a questo tipo di modelli linguistici attraverso ChatGPT. I grandi modelli di lingua (LLM) si sono stabiliti come una presenza permanente e si prevede che altereranno drasticamente l’intero ecosistema testuale e di immagini online. L’addestramento da dati raccolti da web di grandi dimensioni può essere mantenuto solo se viene dato il giusto peso. Infatti, il valore dei dati acquisiti riguardanti le vere interazioni umane con i sistemi aumenterà con l’inclusione di contenuti generati da LLM nei dati raccolti da Internet.

Ricercatori provenienti dalla Gran Bretagna e dal Canada hanno scoperto che il collasso del modello si verifica quando un modello apprende da dati generati da un altro. Questo processo degenerativo fa sì che i modelli perdano di vista la vera distribuzione dei dati sottostanti nel tempo, anche quando non è avvenuto alcun cambiamento. Illustrano questo fenomeno fornendo casi studio di fallimento del modello nel contesto del modello di miscela gaussiana, dell’autocodificatore variazionale e del grande modello di lingua. Dimostrano come, attraverso generazioni successive, i comportamenti acquisiti convergono ad una stima con varianza estremamente minima e come questa perdita di conoscenza sulla vera distribuzione inizia con la scomparsa delle code. Inoltre, dimostrano che questo risultato è inevitabile anche in scenari con condizioni quasi ottimali per l’apprendimento a lungo termine, ovvero senza errore di stima della funzione.

I ricercatori concludono parlando degli effetti più ampi del collasso del modello. Sottolineano l’importanza di avere accesso ai dati grezzi per determinare dove le code della distribuzione sottostante contano. Pertanto, i dati sulle interazioni umane con LLM diventeranno sempre più utili se utilizzati per pubblicare materiale su Internet su larga scala, inquinando così la raccolta di dati per addestrarli.

Collasso del modello: cos’è?

Quando una generazione di modelli generativi appresi collassa nella successiva, quest’ultima è corrotta poiché è stata addestrata su dati contaminati e quindi interpreta male il mondo. Il collasso del modello può essere classificato come “precoce” o “tardivo”, a seconda di quando si verifica. Nella fase precoce del collasso del modello, il modello inizia a perdere informazioni sulle code della distribuzione; nella fase tardiva, il modello si ingarbuglia in diversi modi delle distribuzioni originali e converge ad una distribuzione che ha poco a che fare con l’originale, spesso con varianza molto piccola.

In questo approccio, che considera molti modelli nel tempo, i modelli non dimenticano i dati appresi in precedenza ma iniziano a interpretare erroneamente ciò che percepiscono come reale rafforzando le loro idee, a differenza del processo di dimenticanza catastrofica. Ciò avviene a causa di due fonti di errore distinte che, combinate nel tempo, portano ad un allontanamento dal modello originale. Un particolare meccanismo di errore è cruciale per il processo; sopravviverà oltre la prima generazione.

Collasso del modello: cause

Le cause di base e secondarie del fallimento del modello sono le seguenti:

  • L’errore più comune è il risultato di un’approssimazione statistica, che si verifica quando ci sono un numero finito di campioni ma diminuisce all’aumentare della dimensione del campione.
  • L’errore secondario causato dal non essere sufficientemente espressivi (o talvolta troppo espressivi al di là della distribuzione originale) degli approssimatori di funzioni è noto come errore di approssimazione funzionale.

Ciascuno di questi fattori può esacerbare o alleviare la probabilità di collasso del modello. Una maggiore potenza di approssimazione può essere una spada a doppio taglio poiché una maggiore espressività può amplificare o ridurre il rumore statistico, portando ad una migliore approssimazione della distribuzione sottostante.

Si dice che il collasso del modello si verifichi in tutti i modelli generativi addestrati in modo ricorsivo, influenzando ogni generazione di modelli. Realizzano modelli matematici di base che collassano quando vengono applicati a dati reali ma che possono essere utilizzati per derivare equazioni analitiche per i valori di interesse. Si prefiggono di mettere un numero sull’impatto dei vari tipi di errore sulle approssimazioni finali della distribuzione originale.

I ricercatori mostrano che il collasso del modello può essere innescato dall’addestramento su dati provenienti da un altro modello generativo, portando ad un cambiamento nella distribuzione. Di conseguenza, il modello interpreta erroneamente il problema di addestramento. L’apprendimento a lungo termine richiede di mantenere l’accesso alla fonte di dati originale e di mantenere altri dati non prodotti da LLM disponibili nel tempo. Si sta ancora valutando come il contenuto generato da LLM possa essere tracciato su larga scala, il che solleva problemi sulla provenienza dei contenuti raccolti da Internet e sulla necessità di distinguere tali contenuti da altri dati. La coordinazione a livello di comunità è un approccio per garantire che tutte le parti che partecipano allo sviluppo e alla distribuzione di LLM comunichino e condividano i dati necessari per risolvere i problemi di provenienza. Con i dati raccolti da Internet prima dell’adozione diffusa della tecnologia o l’accesso diretto ai dati forniti dagli esseri umani su larga scala, potrebbe diventare sempre più facile addestrare versioni successive di LLM.

Controlla l’articolo e l’articolo di riferimento. Non dimenticare di unirti al nostro SubReddit di ML di 24k+, canale Discord e newsletter via email, dove condividiamo le ultime notizie di ricerca sull’AI, progetti interessanti sull’AI e altro ancora. Se hai domande riguardanti l’articolo sopra o se abbiamo dimenticato qualcosa, non esitare a scriverci all’indirizzo [email protected].