L’uscita di ChatGPT ha influenzato la produzione di dati aperti? I ricercatori esaminano come i LLM stanno guadagnando popolarità e stanno portando a una diminuzione sostanziale dei contenuti su StackOverflow.

L'uscita di ChatGPT ha influenzato la produzione di dati aperti e ha portato a una diminuzione dei contenuti su StackOverflow.

I Large Language Models (LLM) stanno diventando sempre più popolari con ogni nuovo aggiornamento e nuove release. LLM come BERT, GPT e PaLM hanno dimostrato enormi capacità nel campo del Natural Language Processing e Natural Language Understanding. Il noto chatbot sviluppato da OpenAI chiamato ChatGPT si basa sull’architettura del transformer di GPT 3.5 e GPT 4 ed è utilizzato da oltre un milione di utenti. Grazie alle sue proprietà di imitazione umana, ha attirato l’attenzione di tutti, dai ricercatori agli sviluppatori agli studenti. Genera in modo efficiente contenuti unici, risponde alle domande come farebbe un essere umano, riassume paragrafi di testo lunghi, completa campioni di codice, traduce lingue, e così via.

ChatGPT si è dimostrato sorprendentemente bravo nel fornire agli utenti informazioni su una varietà di argomenti, rendendoli potenziali alternative alle ricerche web convenzionali e alla richiesta di assistenza ad altri utenti online. Ma c’è anche un limite, che è rappresentato dalla riduzione della quantità di dati generati dall’uomo e delle risorse di conoscenza accessibili pubblicamente, se gli utenti continuano a interagire privatamente con modelli di linguaggio massivi. Questa riduzione dei dati aperti può rendere difficile garantire dati di allenamento per modelli futuri, poiché potrebbe esserci meno informazioni liberamente disponibili.

Per approfondire ulteriormente la ricerca, un team di ricercatori ha esaminato l’attività su Stack Overflow al fine di determinare come il rilascio di ChatGPT abbia influenzato la produzione di dati aperti. Stack Overflow, un noto sito di domande e risposte per programmatori informatici, è stato utilizzato come caso studio in quanto rappresenta un ottimo esempio per esaminare il comportamento e il contributo degli utenti quando sono presenti numerosi modelli di linguaggio. Il team si è impegnato nell’indagine su come, man mano che i LLM come ChatGPT stanno guadagnando enorme popolarità, stanno portando a una riduzione sostanziale dei contenuti su siti come StackOverflow.

Dopo una valutazione, il team ha tratto alcune interessanti conclusioni. Stack Overflow ha visto un forte calo della sua attività rispetto ai suoi concorrenti cinesi e russi, dove l’accesso a ChatGPT è limitato, e rispetto a forum simili per la matematica, dove ChatGPT è meno efficace a causa della mancanza di dati di allenamento utili. Il team ha previsto una diminuzione del 16% dei post settimanali su Stack Overflow dopo il lancio di ChatGPT di OpenAI. È stato anche osservato che l’impatto di ChatGPT nel ridurre l’attività su Stack Overflow è aumentato nel tempo, suggerendo che, man mano che gli utenti si sono abituati sempre di più alle caratteristiche del modello, hanno iniziato a fare affidamento su di esso per informazioni, limitando ulteriormente i contributi al sito.

Il team ha individuato tre conclusioni chiave, che sono le seguenti.

  1. Riduzione dell’attività di pubblicazione: Dopo il lancio di ChatGPT, Stack Overflow ha visto una diminuzione del numero di post, ovvero di domande e risposte. È stata utilizzata una metodologia delle differenze nelle differenze per calcolare la riduzione dell’attività e confrontarla con altre quattro piattaforme Q&A. L’attività di pubblicazione su Stack Overflow è originariamente diminuita di circa il 16% entro sei mesi dall’esordio di ChatGPT, prima di aumentare a circa il 25%.
  1. Nessun cambiamento nei voti dei post – Il numero di voti, sia positivi che negativi, ricevuti dai post su Stack Overflow dal lancio di ChatGPT non è cambiato significativamente, nonostante il calo dell’attività di pubblicazione, il che dimostra che ChatGPT sta sostituendo non solo post di bassa qualità ma anche articoli di alta qualità.
  1. Effetto sulle diverse lingue di programmazione: ChatGPT ha avuto un effetto diversificato sulle varie lingue di programmazione discusse su Stack Overflow. Rispetto alla media globale del sito, l’attività di pubblicazione è diminuita in modo più evidente per alcuni linguaggi, come Python e JavaScript. Le diminuzioni relative dell’attività di pubblicazione sono state influenzate anche dalla diffusione dei linguaggi di programmazione su GitHub.

Gli autori hanno concluso spiegando come l’uso diffuso di LLM e il conseguente abbandono di siti come Stack Overflow possano limitare ulteriormente la quantità di dati aperti da cui gli utenti e i modelli futuri possono imparare, nonostante i potenziali guadagni di efficienza nella risoluzione di alcuni problemi di programmazione. Ciò ha conseguenze sull’accessibilità e la condivisione delle conoscenze su Internet, nonché sulla sostenibilità a lungo termine dell’ecosistema di intelligenza artificiale.