Lanciare un gatto tra i piccioni? Potenziare la computazione umana con modelli di lingua di grandi dimensioni

Lanciare un gatto tra i piccioni? Potenziare la computazione umana con modelli di lingua

L’era dell’intelligenza artificiale generativa offre opportunità per migliorare il lavoro di folla, e non necessariamente sostituirlo

Foto di Steve Johnson su Unsplash

Sono sempre stato affascinato dall’etimologia. Molto spesso, c’è una storia affascinante dietro come le parole e le frasi hanno acquisito i significati con cui siamo così familiari. Trasformandosi nel corso degli anni e mescolandosi con i tempi che cambiano. Il Mechanical Turk era una macchina umanoide giocatrice di scacchi creata da un autore e inventore ungherese, Wolfgang von Kempelen, nel XVIII secolo. La storia narra che il Mechanical Turk ha girato l’Europa e ha umiliato nomi notevoli come Napoleone Bonaparte e Benjamin Franklin in epiche battaglie di scacchi. Solo in seguito è stato svelato il segreto sotto forma di un genio degli scacchi umano reale nascosto all’occhio nudo in un mobiletto sotto il pavimento, da dove controllava le mosse effettuate dall’umanoide.

Questa storia ha ispirato il nome della piattaforma di crowdsourcing Amazon Mechanical Turk lanciata nel 2005. La piattaforma era progettata per risolvere compiti che non potevano essere risolti da alternative contemporanee e richiedevano un contributo o un’intelligenza umana. È stato in questo contesto che ha preso forma e forma la nozione di “intelligenza artificiale artificiale”, in cui gli umani fungono da fonte di intelligenza quando questa va oltre le capacità delle macchine. Siamo arrivati molto lontano da lì, al limite di una nuova nozione di “intelligenza artificiale artificiale artificiale”. Sì, hai letto bene. Tre artificiali. Prima di provare a romperti la testa con questa noce, facciamo un breve tour di alcuni ricordi del passato.

I Primi Giorni del Crowdsourcing

Nel suo libro intitolato “La saggezza delle folle” pubblicato nel 2004, James Surowiecki ha esplorato e sintetizzato gli attributi necessari per formare una folla saggia – una che spesso può prendere decisioni migliori rispetto a qualsiasi singolo individuo della folla. Ha identificato la diversità di opinioni, l’indipendenza di giudizio e la conoscenza decentralizzata come attributi vitali a tal fine. Nel 2006, Jeff Howe ha coniato il termine crowdsourcing come un’unione delle parole “folle” e “esternalizzazione” in un articolo che ha scritto per la rivista Wired su “L’ascesa del crowdsourcing”. Ha discusso di come le aziende avevano iniziato a sfruttare le capacità collettive delle comunità online distribuite attraverso chiamate aperte per completare determinati compiti.

Il Mechanical Turk di Amazon ha prosperato dopo il suo lancio, e nel giro di pochi anni, centinaia di migliaia di persone in tutto il mondo hanno trovato l’opportunità di guadagnarsi da vivere completando compiti sulla piattaforma. Ciò ha suscitato una crescita delle piattaforme di crowdsourcing in tutto il mondo, creando e consolidando una nuova economia di lavoro di folla microtask online. Ricercatori e professionisti hanno iniziato a fare affidamento sulle piattaforme di crowdsourcing per completare vari compiti e hanno dimostrato che anche compiti complessi potevano essere scomposti e sottoposti al crowd. Sono stati proposti sistemi e strumenti per supportare i lavoratori di folla nel completare i compiti in modo efficace.

Nel 2009, il rilascio di ImageNet ha stimolato l’intero campo dell’apprendimento automatico. Con oltre 3,2 milioni di immagini in 12 sottoalberi con oltre cinquemila insiemi, è stato un enorme sforzo di raccolta dati tramite crowdsourcing tramite Amazon Mechanical Turk [1]. Ciò ha offerto un’opportunità senza precedenti per il progresso in diversi compiti di visione artificiale, inclusi il riconoscimento degli oggetti e la classificazione delle immagini.

Non dimentichiamo che questo progresso è arrivato con una serie di prove e tribolazioni. Molte persone hanno avvertito i pericoli connessi con l’affidarsi a dati generati dall’uomo, soggetti a pregiudizi cognitivi e sistematici. Nel 2013, un gruppo di ricercatori ben noti nella comunità del crowdsourcing ha scritto un articolo intitolato “Il futuro del lavoro di folla”, in cui hanno riflettuto sullo stato del paradigma e sulla serie di sfide che richiedevano un immediato intervento [2]. Molte di queste sfide sono ancora irrisolte, anche a distanza di 10 anni, nonostante un significativo progresso. Sono emersi problemi ben documentati relativi alla qualità dei dati raccolti (ad esempio, propagazione di pregiudizi), asimmetria di potere sulle piattaforme, salari orari pessimi, rifiuti ingiusti del lavoro, lavoro invisibile, ambienti di lavoro insalubri e la lista continua. Nonostante le fragilità di ciò che alcuni considerano un paradigma di lavoro frantumato, risultati notevoli punteggiano la linea temporale storica, e il potere del crowdsourcing ha senza dubbio contribuito a un ritmo di progresso tecnologico che solo pochi avrebbero previsto.

L’Intrigante Era dell’Intelligenza Artificiale Generativa

Molta dei media mainstream in tutto il mondo oggi si perde in narrazioni ampie intorno all’IA generativa e a cosa possa significare la democratizzazione di grandi modelli di linguaggio. Molte più vite continueranno ad essere toccate dall’IA in modi attesi e inaspettati. Ed è il lavoro laborioso degli esseri umani dietro le quinte che ha alimentato questa rivoluzione dell’IA in primo luogo. Se dovessimo “scrutare le ombre dell’IA, scopriremmo gli esseri umani che la alimentano”, come affermato in modo indimenticabile da Mary Gray e Sid Suri in Ghost Work [3].

Previsioni esagerate e titoli clickbait hanno paragonato il ruolo degli esseri umani in questa era a piccioni ansiosi ed equiparato i modelli di linguaggio generativi a gatti audaci, con il gatto metaforico che disturba lo stormo, mandandoli via in tutte le direzioni. Ma cosa significa veramente l’inizio di questa nuova era dei modelli di IA generativa per l’input umano? La necessità di un input umano è stata in gran parte eliminata nella definizione delle future tecnologie? Nel resto di questo articolo, sosterrò che la risposta a questo sia un risoluto no e che il principale cambiamento che dovremmo aspettarci riguarda la natura dell’input umano che continuerà ad essere necessario.

Recentemente ho collaborato alla stesura di un paper di workshop che esplora come i flussi di lavoro di calcolo umano possano abbracciare l’emergere dei modelli di IA generativa [4]. Questo lavoro è stato presentato al Generative AI Workshop alla conferenza HCI di punta, ACM CHI 2023, tenutasi ad Amburgo all’inizio di quest’anno. Abbiamo evidenziato il ruolo potenziale che i grandi modelli di linguaggio (LLM) possono svolgere nell’aumentare i flussi di lavoro di crowdsourcing esistenti e discusso come tali flussi di lavoro possano essere valutati empiricamente.

Un’introduzione ai flussi di lavoro di crowdsourcing

I flussi di lavoro di crowdsourcing sono modelli distinti che gestiscono come compiti su larga scala vengono scomposti in compiti più piccoli da completare dai lavoratori della folla. Il word processor alimentato dalla folla, Soylent, applica il flusso di lavoro “Trova-Correggi-Verifica” per produrre testi di alta qualità separando i compiti in fasi di generazione e revisione del testo. Ciò ha permesso ai “redattori di chiamare i lavoratori di Mechanical Turk per abbreviare, correggere bozze e modificare altre parti dei loro documenti su richiesta [5]”. Il flusso di lavoro “Itera-e-Vota” è stato utilizzato per creare descrizioni di immagini, in cui i lavoratori vengono prima invitati a scrivere descrizioni di immagini (ad esempio, con l’obiettivo finale di aiutare le persone non vedenti). Successivi compiti di voto vengono quindi utilizzati per convergere su una descrizione ottimale [6]. Il flusso di lavoro “Map-Reduce” è stato proposto per “partizionare il lavoro in compiti che possono essere eseguiti in parallelo, assegnare compiti ai lavoratori e gestire le dipendenze tra di essi [7]”. Condividendo la stessa essenza, sono state proposte anche strumenti come CrowdWeaver per gestire flussi di lavoro complessi, supportare la condivisione di dati tra i compiti e fornire strumenti di monitoraggio e capacità di regolazione dei compiti in tempo reale [8].

Potenziare i flussi di lavoro di crowdsourcing con LLM

È improbabile che l’emergere dei modelli di linguaggio renda tali flussi di lavoro, framework e strumenti completamente banali. Al contrario, la comunità del crowdsourcing è in una posizione unica per abbracciare i benefici che i LLM possono portare, basandosi su decenni di ricerca su flussi di lavoro efficaci, approcci umano-nel-loop e conoscenza nella creazione di sistemi ibridi uomo-IA.

La prospettiva incentrata sull’essere umano nello sviluppo delle tecnologie si concentra sull’aumento delle esperienze umane nella vita quotidiana e sull’amplificazione delle capacità delle persone. Se i LLM possono effettivamente aiutare i lavoratori della folla nel completare i compiti, dovrebbero essere accolti e integrati in modo tale da permettere ai lavoratori di completare i compiti in modo più accurato e veloce o in un modo che migliora la loro esperienza complessiva in un modo o nell’altro.

I ricercatori nel campo della recupero delle informazioni (una comunità con cui sono stato coinvolto negli ultimi dieci anni) hanno recentemente considerato cosa la proliferazione dei LLM possa significare per il ruolo degli annotatori umani nel contesto dei giudizi di rilevanza per la valutazione [9]. Hanno proposto uno spettro di collaborazione tra esseri umani e LLM per produrre giudizi di rilevanza (che vanno dai giudizi umani alle valutazioni completamente automatiche, simili ai livelli popolari di automazione). Gli autori hanno esplorato i potenziali benefici di coinvolgere i LLM in capacità assistenti per i compiti di annotazione e li hanno ponderati rispetto ai rischi di farlo. È evidente che i LLM possono ridurre i costi di annotazione nella creazione di collezioni di valutazione. Tuttavia, non è chiaro se tali collezioni potrebbero essere sistematicamente diverse da quelle create dagli esseri umani e come tali artefatti possano influenzare la valutazione dei sistemi di recupero delle informazioni e, di conseguenza, il futuro design di tali sistemi.

Oltre a supportare la scrittura individuale o i compiti di classificazione all’interno di un flusso di lavoro, i ricercatori stanno esplorando anche l’applicazione dei LLM nell’assistere i lavoratori della folla. Liu et al. hanno combinato il potere generativo di GPT-3 e il potere valutativo degli esseri umani per creare un nuovo dataset di inferenza del linguaggio naturale che produce modelli più efficaci quando utilizzato come set di allenamento [10]. Su una linea simile, altri hanno introdotto un ‘Assistente di Annotazione Generativo’ per aiutare nella produzione di collezioni di dati avversariali dinamiche, migliorando significativamente il tasso di raccolta [11]. Tuttavia, ci sono diverse domande aperte e meno comprese riguardanti come i LLM possano migliorare l’efficacia dei flussi di lavoro di crowdsourcing e come tali flussi di lavoro possano essere valutati in modo olistico.

Molti Ostacoli Lungo la Strada?

Come gli esseri umani, anche gli LLM possono essere soggetti a pregiudizi e ingiustizie. Da un lato, lavori precedenti hanno dimostrato come gli annotatori umani cadano vittime delle proprie opinioni nel completare compiti di annotazione, con il risultato di introdurre pregiudizi sistematici nella raccolta dei dati risultante [12]. Altri hanno proposto checklist per contrastare o segnalare potenziali pregiudizi cognitivi che possono emergere durante il processo di annotazione [13]. D’altro canto, lavori recenti hanno rivelato posizioni discriminatorie e pregiudizi stereotipati presenti negli LLM [14, 15].

La comunità di ricerca sulla computazione umana e crowdsourcing (HCOMP) ha elaborato una serie di metodi, interfacce, misure e strumenti efficaci per garantire la raccolta di dati di alta qualità da parte dei lavoratori della folla. È solo una questione di tempo prima che riusciamo a capire collettivamente come tali garanzie legate alla qualità possano essere definite mentre si integrano gli LLM nei processi decisionali.

A prima vista, l’integrazione degli LLM nei flussi di lavoro di crowdsourcing può sembrare piuttosto semplice. Come per la maggior parte delle proposte di soluzioni relative a sistemi complessi, è più facile dirlo che farlo. Il crowdsourcing coinvolge molti attori diversi: i richiedenti dei compiti che sono desiderosi di raccogliere annotazioni su larga scala, i lavoratori della folla disposti a fare ciò in cambio di una compensazione, le piattaforme che forniscono l’infrastruttura e fungono da mercato per queste transazioni, e gli utenti finali indiretti di prodotti o tecnologie che vengono sviluppati o costruiti in sforzi successivi. L’impatto dell’inclusione degli LLM nei flussi di lavoro ha il potenziale per influenzare ogni attore in modi diversi.

Se i lavoratori della folla possono diventare più efficaci ed efficienti sfruttando gli LLM in flussi di lavoro intelligenti, c’è il potenziale per fare più lavoro senza aumentare i costi. Tuttavia, è necessario ulteriore lavoro per comprendere meglio i rischi e i benefici che comporta l’inclusione degli LLM come parte dei flussi di lavoro di crowdsourcing. Chi sarebbe responsabile per progettare, sviluppare ed integrare gli LLM in tali flussi di lavoro, considerando la potenziale necessità di responsabilità?

I lavoratori della folla sono storicamente stati lasciati a se stessi per migliorare la loro produttività e gli ambienti e le condizioni in cui operano. Non dovrebbe ora essere responsabilità collettiva delle piattaforme di crowdsourcing e dei richiedenti dei compiti comprendere meglio come dotare i lavoratori di soluzioni basate sugli LLM che possono aiutarli nel completamento e migliorare le loro esperienze di lavoro?

Intelligenza Artificiale Artificiale Artificiale e il Futuro Possibile

Uno studio di caso recente ha esplorato fino a che punto i dati raccolti tramite crowdsourcing da “umani” in un compito di sintesi del testo fossero effettivamente generati da esseri umani. Gli autori hanno trovato prove a sostegno del fatto che oltre il 30% dei lavoratori della folla nel loro studio su Amazon Mechanical Turk hanno già iniziato a fare affidamento sugli LLM [16]. Sebbene lo studio riporti queste informazioni solo da 44 lavoratori e i numeri possano essere presi con le pinze, ciò riflette la prospettiva innegabile di un maggior numero di lavoratori della folla che si rivolgono a soluzioni basate sugli LLM che possono aiutarli ad aumentare la produttività, massimizzare i guadagni e migliorare il tempo trascorso nei mercati del crowdsourcing. Qui sorge il concetto di “intelligenza artificiale artificiale artificiale” – lavoratori della folla che potenzialmente fanno uso di intelligenza artificiale (assistenza da LLM) per fornire ciò che presuntivamente è un input “umano” su richiesta.

Figura: Un'illustrazione che rappresenta l'emergere dell'“intelligenza artificiale artificiale artificiale” coniato in [29] da AI (1) a AAI (2) e infine AAAI (3). Fonte: Immagine dell'autore.

È necessario ulteriore considerazione riguardo alla trasparenza e alla spiegabilità degli LLM rispetto a ciò che può essere ottenuto dagli esseri umani. Quando i lavoratori della folla completano compiti come l’annotazione o altri che richiedono decisioni, i richiedenti dei compiti possono estrarre motivazioni significative attraverso domande di approfondimento. I lavoratori della folla hanno la capacità di fornire tali spiegazioni quando necessario. Attualmente questo non può essere ottenuto con gli LLM. Sì, esistono metodi per spiegare il modello, ma nessuno ha dimostrato un livello di efficacia paragonabile a quello che può essere ottenuto con gli esseri umani in entrambi i lati della linea. Questa percezione degli LLM come una “scatola nera” può creare barriere all’adozione per i richiedenti dei compiti e le piattaforme di crowdsourcing, oltre a ostacolare l’affidamento appropriato dei lavoratori della folla su tali strumenti.

Gli umani e gli LLM? Ci sono infinite possibilità con un mare di domande intriganti e solo una manciata di risposte scintillanti. Approfittare dell’opportunità di integrare questo avanzamento tecnologico per migliorare il lavoro di gruppo è meno come mescolare un nido di vespe e più come catturare una folata di vento nelle nostre vele. Mettiamoci al lavoro, perché un futuro meraviglioso ci attende quando possiamo plasmarlo con gli umani protagonisti.

Riferimenti

  1. Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, giugno). Imagenet: un database di immagini gerarchico su larga scala. In 2009 IEEE Conference on Computer Vision and Pattern Recognition (pp. 248-255). IEEE.
  2. Kittur, A., Nickerson, J.V., Bernstein, M., Gerber, E., Shaw, A., Zimmerman, J., Lease, M. e Horton, J., 2013, febbraio. Il futuro del lavoro di gruppo. In Atti della conferenza del 2013 sul lavoro cooperativo supportato dal computer (pp. 1301-1318).
  3. Gray, M. L. e Suri, S. (2019). Lavoro fantasma: come fermare Silicon Valley nell’edificare una nuova sotto-classe globale. Eamon Dolan Books.
  4. Allen, G., He, G., Gadiraju, U. Power-up! Cosa possono fare i modelli generativi per i flussi di lavoro di elaborazione umana? In Atti del Workshop Generative AI alla Conferenza Internazionale ACM sui Fattori Umani nell’Informatica (CHI 2023).
  5. Bernstein, Michael S., Greg Little, Robert C. Miller, Björn Hartmann, Mark S. Ackerman, David R. Karger, David Crowell e Katrina Panovich. “Soylent: un elaboratore di testi con una folla interna”. In Atti del 23° simposio annuale ACM sul software e la tecnologia delle interfacce utente, pp. 313-322. 2010.
  6. Little, G., Chilton, L. B., Goldman, M. e Miller, R. C. (2009, giugno). Turkit: strumenti per compiti iterativi su Mechanical Turk. In Atti del workshop ACM SIGKDD sulla computazione umana (pp. 29-30).
  7. Kittur, A., Smus, B., Khamkar, S. e Kraut, R. E. (2011, ottobre). Crowdforge: appalto collettivo di lavori complessi. In Atti del 24° simposio annuale ACM sul software e la tecnologia delle interfacce utente (pp. 43-52).
  8. Kittur, A., Khamkar, S., André, P. e Kraut, R., 2012, febbraio. CrowdWeaver: gestione visuale del lavoro collettivo complesso. In Atti della Conferenza ACM 2012 sul lavoro cooperativo supportato dal computer (pp. 1033-1036).
  9. Faggioli, G., Dietz, L., Clarke, C., Demartini, G., Hagen, M., Hauff, C., Kando, N., Kanoulas, E., Potthast, M., Stein, B. e Wachsmuth, H., 2023. Prospettive sui grandi modelli linguistici per la valutazione della rilevanza. Preprint di arXiv arXiv:2304.09161.
  10. Liu, Z., Roberts, R.A., Lal-Nag, M., Chen, X., Huang, R. e Tong, W., 2021. Modelli basati su intelligenza artificiale che alimentano la scoperta e lo sviluppo di farmaci. Drug Discovery Today, 26(11), pp.2593-2607.
  11. Bartolo, M., Thrush, T., Riedel, S., Stenetorp, P., Jia, R. e Kiela, D., 2021. Modelli in loop: aiutare i lavoratori della folla con assistenti di annotazione generativi. Preprint di arXiv arXiv:2112.09062.
  12. Hube, C., Fetahu, B. e Gadiraju, U., 2019, maggio. Comprendere e mitigare i pregiudizi dei lavoratori nella raccolta di giudizi soggettivi tramite crowd. In Atti della Conferenza CHI 2019 sui Fattori Umani nell’Informatica (pp. 1-12).
  13. Draws, T., Rieger, A., Inel, O., Gadiraju, U. e Tintarev, N. (2021, ottobre). Una checklist per combattere i bias cognitivi nel crowdsourcing. In Atti della conferenza AAAI sulla computazione umana e il crowdsourcing (Vol. 9, pp. 48-59).
  14. Abid, A., Farooqi, M. e Zou, J., 2021, luglio. Persistente bias anti-musulmani nei grandi modelli linguistici. In Atti della conferenza AAAI/ACM 2021 su Intelligenza Artificiale, Etica e Società (pp. 298-306).
  15. Nadeem, M., Bethke, A. e Reddy, S., 2020. StereoSet: Misurare il bias stereotipato nei modelli linguistici pre-addestrati. Preprint di arXiv arXiv:2004.09456.
  16. Veselovsky, V., Ribeiro, M. H. e West, R. (2023). Intelligenza Artificiale Artificiale Artificiale: I lavoratori della folla utilizzano ampiamente i grandi modelli linguistici per compiti di produzione di testo. Preprint di arXiv arXiv:2306.07899.