Entropia dell’IA il circolo vizioso dei contenuti generati dall’IA

Entropia dell'IA il circolo vizioso dei contenuti generati dall'IA.

Comprensione e mitigazione del collasso del modello

Foto di Autore - David E Sweenor

Introduzione

Immagina se potessi clonarti per essere in più posti contemporaneamente, gestendo tutte le tue responsabilità senza sforzo. Ricorda il film di commedia fantascientifica “Multiplicity” (circa 1996), in cui Doug Kinney (interpretato da Michael Keaton) si clona per gestire il suo lavoro e la sua vita personale. Tuttavia, più Dougs vengono creati, ogni clone successivo mostra tratti esagerati e intelligenza ridotta rispetto alla versione precedente. I cloni, inizialmente creati per ridurre il caos, finiscono per creare più confusione ed entropia nella vita di Kinney.

Nel mondo dell’intelligenza artificiale (IA), si verifica un fenomeno simile quando modelli di linguaggio di grandi dimensioni (LLM) vengono addestrati su dati generati da versioni precedenti di se stessi. Proprio come i cloni in “Multiplicity”, i modelli di IA iniziano a perdere il contatto con la distribuzione originale dei dati, portando a un aumento del caos e della confusione – una sorta di entropia nel mondo dell’IA conosciuta come “collasso del modello”.

Il fenomeno del collasso del modello

Proprio come Doug in “Multiplicity” affronta il caos mentre crea più cloni, i modelli di IA affrontano un destino simile quando vengono addestrati in modo ricorsivo su dati generati da versioni precedenti di se stessi. Diventano sempre più stupidi e esagerati nel tempo.

Cos’è il collasso del modello?

Il collasso del modello si riferisce a un processo degenerativo in cui, nel tempo, i modelli di IA perdono informazioni sulla distribuzione originale dei contenuti (dati). Poiché i modelli di IA vengono addestrati su dati generati dai loro predecessori, iniziano a “dimenticare” la vera distribuzione dei dati sottostante, portando a una riduzione delle loro capacità generative.

Anche se la spiegazione tecnica di ciò va oltre il campo di questo blog, potresti notarlo in alcuni generatori di immagini di IA: quando iniziano a produrre immagini quasi identiche, è probabile che il modello sia collassato. Un esempio più familiare potrebbe essere con siti di notizie generati da IA, recensioni e siti di contenuti. Questi siti generano automaticamente articoli inaccurati dal punto di vista fattuale e hanno la capacità di diffondere disinformazione a una velocità allarmante.[1]

Ora, parte di questo potrebbe essere attribuito ad allucinazioni di IA, ma è anche molto probabile che questi generatori di contenuti di IA stiano estrapolando articoli da altri articoli generati da IA e li stiano riscrivendo automaticamente. Molti di essi sono immediatamente riconoscibili: sono tipicamente pieni di annunci pubblicitari e popup con contenuti poco o nulla significativi.

Questo è simile ai cloni in “Multiplicity” che diventano meno intelligenti e più esagerati con ogni generazione.

Come avviene?

Il collasso del modello può avvenire a causa di molti fattori come la mancanza di diversità nei dati di addestramento, l’amplificazione dei pregiudizi e l’eccessivo adattamento del modello. Quando un modello di IA viene addestrato su dati generati da IA, sta essenzialmente imparando da un riflesso di se stesso. Questo riflesso, simile a un gioco del “telefono”, diventa sempre più distorto con ogni iterazione.

Quando addestriamo l’IA sull’IA, diventa sempre più stupida.

Ad esempio, prendi questa foto di un surfista.

Foto di Autore - David E Sweenor

Ecco una delle quattro descrizioni create da Midjourney a partire dalla foto:

“statua di lei che indossa un surfista a Honolulu, Hawaii, nello stile di bronzo chiaro e rosa, frank frazetta, arti tradizionali dell’Africa, dell’Oceania e delle Americhe, disposizioni simmetriche, rami intrecciati, estetica dell’arte di strada, narrazione visiva guidata – ar 4:3”

Ecco le quattro versioni generate da IA della mia foto:

Immagini di Midjourney - Iterazione #1 della foto originale del surfista

Sì, sono abbastanza rosa ma il primo sembra il più simile all’originale e non avevo idea di chi fosse Frank Frazetta ma poi ho chiesto di descrivere quell’immagine e ho preso semplicemente la prima.

“una statua per un surfista su una tavola da surf rosa tra dei fiori, nello stile del ray tracing, composizioni monocromatiche, onde del reef, riprese a basso angolo, scene di strada vivaci e sfarzose, rtx on — ar 77:58”

Utilizzando la descrizione sopra, sono state generate le quattro immagini sottostanti.

Foto di Midjourney — Iterazione #2 della foto originale del surfista

Ora queste sono piuttosto interessanti ma non sembrano rappresentare l’originale in nessun modo. Era solo due generazioni separate dall’originale… cosa succederebbe se facessimo questo 100, 1000 o 10.000 volte? Questo non è un esempio perfetto di apprendimento degenerativo ma piuttosto un esempio di entropia dell’IA. Il sistema tende verso uno stato di sempre maggiore disordine.

Intuizioni dalle Persone Intelligenti

Un articolo di ricerca intitolato “La Maledizione della Ricorsione: Allenare i Dati sui Dati Generati Fa Dimenticare ai Modelli” discute gli aspetti tecnici del collasso del modello. Gli autori dimostrano che può accadere su tutti i modelli, non solo quelli generativi dell’IA.

I Modelli Diventano Più Stupidi (Apprendimento Degenerativo)

Una delle intuizioni critiche della ricerca è il concetto di “apprendimento degenerativo”. Nel contesto dei modelli di intelligenza artificiale, l’apprendimento degenerativo si riferisce al processo in cui, nel tempo, i modelli perdono la capacità di rappresentare accuratamente la diversità e la complessità della distribuzione dei dati originali.

Gli autori citano l’esempio seguente:

Esempio di Collasso del Modello da Articolo di Ricerca

Come puoi vedere, dato un certo testo in input, se addestri ogni modello su dati prodotti dalle generazioni precedenti, diventa senza senso.

Questo accade per diverse ragioni, tra cui:

  • Perdita di Eventi Rari: Mentre i modelli vengono addestrati su dati generati dalle versioni precedenti di se stessi, tendono a concentrarsi sui pattern più comuni e iniziano a dimenticare eventi rari o improbabili. Questo è simile ai modelli che perdono la loro “memoria a lungo termine”, come Doug in “Multiplicity”. Spesso, gli eventi rari sono importanti singolarità nei dati, che siano anomalie nei processi di produzione o transazioni fraudolente. Gli eventi rari sono importanti da comprendere e mantenere. Ad esempio, una pratica comune nei progetti di analisi del testo è rimuovere le “parole di spazzatura”, che potrebbero essere pronomi, articoli determinativi e indefiniti, e così via. Tuttavia, per i casi di frode, sono i pronomi che rappresentano il segnale della frode. I truffatori tendono a parlare in terza persona anziché in prima.
  • Amplificazione dei Preconcetti: Ogni iterazione di addestramento sui dati generati dall’IA può amplificare i preconcetti esistenti. Poiché l’output del modello si basa sui dati su cui è stato addestrato, qualsiasi pregiudizio nei dati di addestramento può essere rafforzato ed esagerato nel tempo, simile anche ai multipli Dougs. Abbiamo già visto l’amplificazione dei pregiudizi nel mondo tradizionale dell’IA, che ha portato a discriminazioni nelle assunzioni, pregiudizi razziali nel settore sanitario o tweet discriminatori. Dobbiamo avere controlli per rilevare e mitigare la loro perpetuazione.
  • Riduzione delle Capacità Generative: Le capacità generative del modello iniziano a restringersi man mano che viene sempre più influenzato dalle sue stesse proiezioni della realtà. Il modello inizia a produrre contenuti sempre più omogenei e meno rappresentativi della diversità e degli eventi rari presenti nei dati originali. Man mano che tutto inizia a regredire verso la media e a uno stato di omogeneità, si avrà una perdita di originalità (già visibile sui siti web di ricette). Per i LLM, è la variazione che dà a ogni scrittore o artista il proprio tono e stile particolare.
  • Errore di Approssimazione Funzionale: L’articolo menziona che l’errore di approssimazione funzionale può verificarsi se gli approssimatori di funzione sono insufficientemente espressivi. Questo errore può essere ridotto utilizzando modelli più espressivi, ma troppa espressività può amplificare il rumore e portare all’overfitting.

L’apprendimento degenerativo è caratterizzato come un ciclo vizioso in cui la capacità del modello di imparare e rappresentare i dati in modo accurato si deteriora con ogni iterazione di addestramento su contenuti generati dall’IA.

Ciò ha implicazioni significative sulla qualità e affidabilità dei contenuti generati dai modelli di intelligenza artificiale.

Implicazioni del crollo del modello

Comprendere il fenomeno del crollo del modello è interessante, ma è altrettanto importante riconoscerne le implicazioni. Il crollo del modello può avere conseguenze di vasta portata, influenzando la qualità, l’affidabilità e l’equità dei contenuti generati dall’IA. Se non viene considerato correttamente, la vostra organizzazione potrebbe essere a rischio.

Qualità e affidabilità

Man mano che i modelli di intelligenza artificiale subiscono un apprendimento degenerativo, la qualità e l’affidabilità dei contenuti che generano possono deteriorarsi significativamente. Questo perché i modelli perdono il contatto con la distribuzione originale dei dati e vengono sempre più influenzati dalle proprie proiezioni della realtà. Ad esempio, un modello di intelligenza artificiale utilizzato per generare articoli di notizie potrebbe iniziare a produrre contenuti non accurati dal punto di vista dei fatti, eccessivamente omogenei o semplicemente notizie false!

Equità e rappresentatività

Il crollo del modello può avere gravi implicazioni per l’equità e la rappresentatività. Man mano che i modelli dimenticano eventi rari e le loro capacità generative si restringono, i contenuti relativi a comunità marginalizzate o argomenti meno comuni possono essere sottorappresentati o distorti. Ciò può perpetuare pregiudizi e stereotipi e contribuire all’esclusione di determinate voci e prospettive.

Preoccupazioni etiche

Le preoccupazioni etiche legate al crollo del modello sono significative. Quando i contenuti generati dall’IA vengono utilizzati per la presa di decisioni, l’istruzione o la diffusione delle informazioni, l’integrità dei contenuti è fondamentale. Il crollo del modello può portare alla diffusione di contenuti distorti, inesatti o omogeneizzati, che possono avere implicazioni etiche, specialmente se influenzano la vita delle persone, le opinioni o l’accesso alle opportunità.

Impatto economico e sociale

A livello economico e sociale, il crollo del modello può influenzare la fiducia e l’adozione delle tecnologie dell’IA. Se le imprese e i consumatori non possono fare affidamento sui contenuti generati dai modelli di intelligenza artificiale, potrebbero essere meno propensi ad adottare queste tecnologie. Ciò può avere implicazioni economiche per settori che si basano pesantemente sull’IA e implicazioni sociali in termini di percezione pubblica e fiducia nell’IA.

Strategie per mitigare il crollo del modello

Il crollo del modello, con le sue implicazioni di vasta portata, richiede lo sviluppo di strategie per mitigarne gli effetti. Ecco alcune strategie che possono essere utilizzate per prevenire o mitigare il crollo del modello nei sistemi di intelligenza artificiale:

Conservare i dataset umani originali

Uno dei principali insegnamenti del paper di ricerca è l’importanza di conservare una copia del dataset umano originale. Ritrainare periodicamente il modello su questi dati può contribuire a garantire che il modello rimanga ancorato alla realtà e continui a rappresentare la diversità e la complessità delle esperienze umane. Un recente paper di ricerca di Microsoft Research ha suggerito che addestrare LLM su dati affidabili come i libri di testo potrebbe contribuire a migliorare l’accuratezza dei LLM.

Introdurre nuovi dataset generati dall’uomo

Oltre a conservare i dataset originali, introdurre nuovi dataset generati dall’uomo, puliti, nel processo di addestramento è vantaggioso. Questo può contribuire a impedire al modello di restringere le proprie capacità generative e garantire che continui a imparare e adattarsi alle nuove informazioni. Mentre le aziende iniziano a perfezionare i LLM sui propri dati aziendali proprietari, ciò potrebbe contribuire a evitare il degrado dei LLM.

Monitoraggio e valutazione regolari

Monitorare e valutare regolarmente le prestazioni dei modelli di intelligenza artificiale è cruciale. Impostando metriche di valutazione e punti di riferimento, è possibile rilevare segnali precoci di crollo del modello. Ciò consente interventi tempestivi, come l’aggiustamento dei dati di addestramento o l’ottimizzazione dei parametri del modello. Questo non è diverso dalla nostra guida tradizionale sul monitoraggio del modello, le aziende devono implementare un framework MLOps per monitorare continuamente i modelli e i dati per la deriva. Non solo devono rilevarla, ma hanno bisogno di meccanismi aggiuntivi per garantire che i modelli non stiano allucinando e producano risultati in linea con gli obiettivi dell’azienda, che sarà una nuova capacità per molte organizzazioni.

Diversificare i dati di addestramento

Assicurarsi che i dati di addestramento siano diversi e rappresentativi di prospettive ed esperienze diverse può contribuire a prevenire pregiudizi e garantire l’equità nei contenuti generati dall’IA. Ciò include garantire la rappresentazione di comunità sottorappresentate ed eventi rari. Va da sé che le organizzazioni devono capire i dati di origine utilizzati per addestrare il modello per assicurarsi che sia in linea con la realtà e rappresenti il meglio di ciò che la società potrebbe essere. Utilizzare ciecamente dati provenienti da Internet, che sono pieni di negatività, pregiudizi e disinformazione, è una ricetta per il disastro.

Coordinatione e Collaborazione della Comunità

Il collasso del modello non è solo una sfida tecnica, ma anche etica e sociale. La coordinazione a livello comunitario che coinvolge aziende di intelligenza artificiale, produttori di contenuti, ricercatori e responsabili politici è essenziale. La condivisione di informazioni, le migliori pratiche e la collaborazione nello sviluppo di standard e linee guida possono essere strumentali per affrontare il collasso del modello. Sebbene le linee guida e i quadri siano buoni, l’applicazione e l’adesione oltre le frontiere geopolitiche saranno una sfida.

Sommario

In Multiplicity, il tentativo di Doug di clonarsi per gestire le sue responsabilità porta al caos e all’entropia non voluti. Questo scenario trova un parallelo nel mondo dell’intelligenza artificiale, dove l’addestramento dei modelli sui dati generati dall’intelligenza artificiale può portare a una forma di entropia nota come collasso del modello.

Come i cloni nel film diventano sempre più stupidi e caotici con ogni generazione, i modelli di intelligenza artificiale possono perdere la loro capacità di rappresentare accuratamente la diversità e la complessità dei dati originali man mano che si addestrano sui loro stessi risultati.

Il collasso del modello, simile all’entropia in Multiplicity, ha implicazioni molto ampie per la qualità, l’affidabilità e l’equità dei contenuti generati dall’intelligenza artificiale. È un promemoria che la replicazione incontrollata, che si tratti di cloni in un film o di intelligenza artificiale che si addestra sui propri dati, può portare a una perdita di informazioni e a un aumento del disordine.

Tuttavia, a differenza della clonazione incontrollata in Multiplicity, abbiamo gli strumenti e le conoscenze per gestire e mitigare il collasso del modello nei sistemi di intelligenza artificiale. Conservando i set di dati originali prodotti dall’uomo, diversificando i dati di addestramento, monitorando regolarmente i modelli di intelligenza artificiale e promuovendo la coordinazione della comunità, possiamo contrastare l’entropia e garantire che l’intelligenza artificiale rimanga uno strumento affidabile e vantaggioso.

Man mano che l’intelligenza artificiale continua a evolversi, è imperativo ricordare le lezioni apprese da Multiplicity, l’entropia e la ricerca sul collasso del modello. Attraverso gli sforzi collettivi, possiamo praticare l’intelligenza artificiale in modo responsabile, garantendo che rimanga ancorata alla realtà e serva alle diverse esigenze di tutte le comunità, senza scendere nel caos.

In sostanza, gestendo attivamente il “processo di clonazione” dei dati dell’intelligenza artificiale e tenendo presente l’entropia che può creare, possiamo guidare lo sviluppo dell’intelligenza artificiale in una direzione innovativa e responsabile.

Se desideri saperne di più sull’intelligenza artificiale, dai un’occhiata al mio libro “Artificial Intelligence: An Executive Guide to Make AI Work for Your Business” su Amazon.

Artificial Intelligence Executive Guide on Amazon

[1] Thompson, Stuart A. 2023. “Contenuti generati da intelligenza artificiale scoperti su siti di notizie, piattaforme di content farming e recensioni sui prodotti.” The New York Times, 19 maggio 2023, sec. Tecnologia. https://www.nytimes.com/2023/05/19/technology/ai-generated-content-discovered-on-news-sites-content-farms-and-product-reviews.html.