Prendere le giuste decisioni Consigli AI, strumenti decisionali e la promessa di LLMs

Prendere le decisioni giuste consigli, strumenti di supporto e la promessa degli LLMs

Esplorare la nuova alba della presa di decisioni con LLMs

Foto di Robert Ruggiero su Unsplash

Introduzione

La democratizzazione dell’intelligenza artificiale ha portato all’adozione di sistemi di intelligenza artificiale in una varietà di ambiti. L’ultimo sviluppo dei modelli generativi, come i modelli linguistici altamente pre-addestrati (LLMs), ha portato al loro ampia diffusione in diverse attività della nostra vita quotidiana, dall’aumentare la produttività aiutando nella scrittura di email, all’aiutare a superare l’ostacolo temuto della “pagina bianca” per scrittori principianti ed esperti. A causa della crescente dipendenza dai LLMs per aiutare la presa di decisioni, questo articolo presenta una sintesi della presa di decisioni umana e dell’evoluzione della presa di decisioni umana-intelligenza artificiale. Infine, l’articolo riflette sulle opportunità che i LLMs offrono per aiutare compiti di presa di decisioni e sulle minacce correlate alla dipendenza dai LLMs per la presa di decisioni.

Presa di Decisioni Umana

In un mondo caratterizzato da una gamma crescente di scelte riguardo a quasi ogni singola decisione che affrontiamo nella vita quotidiana (ad esempio, il cibo da comprare o i vestiti da indossare, i libri da leggere, la musica da ascoltare o i film da guardare, dalle scelte di stile di vita alle destinazioni di viaggio), la qualità della presa di decisioni ha ricevuto un interesse rinnovato. Nel suo influente lavoro che espone il “paradosso della scelta”, Barry Schwartz ha articolato questa crescente difficoltà nella presa di decisioni sullo sfondo degli avanzamenti tecnologici all’inizio del nuovo millennio [12]. Schwartz lo espone con un esempio di un medico che offre al paziente una serie di trattamenti, comunicando i rischi potenziali e pesandoli rispetto ai benefici per ciascuno di essi. In una situazione del genere, il peso di una decisione ad alto rischio viene spostato dal medico esperto al paziente non esperto. Tra gli altri fattori, l’eccesso di scelte tende spesso a ostacolare la presa di decisioni umane efficaci.

Diverse comunità di ricerca, dalla psicologia evoluzionistica alle scienze cognitive e neuroscienze, hanno esplorato la natura della presa di decisioni umane e i vari fattori che plasmano i processi decisionali tra gli esseri umani [2,10]. Non è un segreto che la presa di decisioni umane sia afflitta da pregiudizi cognitivi e punteggiata da irrazionalità. Questo è stato documentato più famosamente dal premio Nobel per l’economia comportamentale, Daniel Kahneman, nel suo libro Pensare, Velocemente e Lentamente [6].

Foto di Robynne Hu su Unsplash

Presa di Decisioni Umana-Intelligenza Artificiale

L’avvento delle tecnologie ha portato a una crescita dei sistemi di supporto decisionale che possono aiutare gli esseri umani a superare gli ostacoli nei loro processi decisionali. I sistemi di supporto decisionale assumono varie forme e forme in contesti socio-tecnici più ampi, dai semplici algoritmi che alimentano le interazioni degli utenti ai complessi modelli di apprendimento automatico che aiutano gli utenti con previsioni e previsione. Ad esempio, i sistemi di raccomandazione possono aiutare gli utenti presentando loro contenuti o prodotti che probabilmente soddisfano al meglio le loro esigenze. Altri sistemi algoritmici possono analizzare grandi volumi di dati per offrire consigli agli utenti in una moltitudine di compiti decisionali.

Un obiettivo centrale comune a tutti i contesti di presa di decisioni umana-intelligenza artificiale è il potenziale per migliorare l’efficacia della presa di decisioni combinando l’intelligenza umana con la potenza computazionale dei sistemi algoritmici. Tuttavia, questo è molto lontano da come molti processi decisionali collaborativi umano-intelligenza artificiale si svolgono nel mondo reale. Gli esseri umani non riescono a fare affidamento in modo appropriato sui sistemi di intelligenza artificiale nei compiti decisionali, portando a una performance sub-ottimale del team. Un affidamento adeguato è stato concepito come l’affidamento degli esseri umani ai consigli dell’intelligenza artificiale quando sono corretti e l’autonomia quando l’intelligenza artificiale è errata [11]. Sono numerosi i fattori che giocano un ruolo nel plasmare tali risultati, tra cui fattori umani (ad esempio, conoscenze del dominio, affinità per l’interazione con la tecnologia, esperienza precedente); fattori di sistema (ad esempio, accuratezza o fiducia del sistema di intelligenza artificiale); fattori di compito (ad esempio, complessità del compito, incertezza del compito, rischi).

Esplorazioni empiriche della presa di decisioni umano-intelligenza artificiale in vari contesti, comprese le decisioni di domanda di prestito e la diagnosi medica, hanno rivelato che gli esseri umani o si affidano troppo poco ai consigli dell’intelligenza artificiale e perdono l’opportunità di migliorare i risultati delle loro decisioni o si affidano troppo ai consigli dell’intelligenza artificiale e ottengono risultati sub-ottimali. Per affrontare il problema dell’affidamento eccessivo o insufficiente e promuovere un’affidabilità appropriata sui consigli dell’intelligenza artificiale, lavori precedenti hanno proposto l’uso di spiegazioni [13], funzioni di forzatura cognitive (cioè, interventi che forzano la considerazione critica e la riflessione durante il processo decisionale) [4], tutorial o sessioni di formazione che comunicano i punti di forza e le debolezze dei sistemi di intelligenza artificiale, e iniziative per aumentare la conoscenza generale dell’intelligenza artificiale delle popolazioni. Lavori recenti hanno proposto una struttura alternativa chiamata “intelligenza artificiale valutativa” per promuovere un’affidabilità appropriata sui consigli dell’intelligenza artificiale. Questa struttura suggerisce che gli strumenti di supporto decisionale dovrebbero fornire prove a favore e contro le decisioni prese dalle persone anziché fornire raccomandazioni da accettare o respingere [7].

Le distorsioni cognitive hanno influenzato anche la presa di decisioni tra umani e intelligenza artificiale [1, 3]. Rastogi et al. [9] hanno sostenuto che la nostra percezione generale e comprensione dei compiti decisionali può essere distorta da distorsioni cognitive, come il bias di conferma, il bias di ancoraggio e il bias di disponibilità. Hanno esplorato il ruolo del bias di ancoraggio e proposto metodi per mitigarne gli effetti negativi sulle prestazioni decisionali collaborative. He et al. [22] hanno mostrato che l’effetto Dunning-Kruger, un bias metacognitivo, può influenzare il modo in cui le persone si affidano ai consigli dei sistemi di intelligenza artificiale. Hanno rivelato che gli utenti che sovrastimano le proprie capacità tendono a mostrare una sottorelianze verso i sistemi di intelligenza artificiale, ostacolando le prestazioni ottimali del team nei compiti decisionali. Altri fattori, come l’avversione e l’apprezzamento algoritmico, hanno dimostrato di influenzare la fecondità delle decisioni umano-intelligenza artificiale [17].

Nonostante il lavoro in corso nell’ampio campo della collaborazione uomo-intelligenza artificiale, favorire un affidamento appropriato sui sistemi di intelligenza artificiale nei compiti decisionali rimane un problema irrisolto. Diverse comunità di ricerca all’intersezione di intelligenza artificiale, apprendimento automatico e interazione uomo-computer stanno lavorando attivamente per avanzare nella comprensione di questa area e sviluppare metodi, strumenti e framework che possano aiutarci a beneficiare del potenziale della collaborazione uomo-intelligenza artificiale.

In questo momento, i grandi modelli di linguaggio (LLM) hanno trovato una vasta applicazione e diffusione in molti settori. Nel resto di questo articolo, esploreremo le opportunità che i LLM offrono nel supporto delle decisioni umane e nell’integrazione con i potenziali vantaggi.

LLM per i compiti decisionali

I LLM vengono sempre più utilizzati in una varietà di sistemi sociotecnici nonostante dimostrino bias e il potenziale di causare danni. Detto ciò, hanno anche dimostrato di avere un impatto positivo su larga scala, ad esempio, supportando i processi di auditing come dimostrato da Rostagi et al. [8] tramite uno strumento di auditing che sfrutta un LLM generativo. Gli autori hanno proposto di sfruttare i punti di forza complementari degli esseri umani e dei modelli generativi nella collaborazione nell’auditing dei modelli linguistici commerciali. Wu et al. [14] hanno proposto AutoGen, un framework che consente flussi di lavoro complessi basati su LLM, utilizzando conversazioni tra agenti multipli. AutoGen può supportare compiti decisionali online come il gioco o le interazioni web.

Da un lato, ci sono evidenze che i LLM come GPT-3 mostrano comportamenti che assomigliano in modo sorprendente all’intuizione umana, insieme agli errori cognitivi correlati [16]. Ricerche recenti hanno evidenziato la fattibilità dell’utilizzo di ChatGPT per le decisioni radiologiche, migliorando potenzialmente i flussi di lavoro clinici e l’uso responsabile dei servizi radiologici [18]. Per migliorare la sicurezza dell’intelligenza artificiale nei processi decisionali, Jin et al. [15] hanno mirato a replicare e potenziare i LLM con la capacità di determinare quando rompere una regola, specialmente in situazioni nuove o insolite. D’altro canto, i LLM possono involontariamente perpetuare stereotipi verso gruppi marginalizzati [20] e mostrare bias legati a razza, genere, religione e orientamento politico. Come per le sfide nel favorire un’affidabilità e un’affidabilità appropriate tra gli utenti nei sistemi di supporto decisionale, se gli esseri umani dovessero fare affidamento sui LLM per le decisioni, sarà necessario capire meglio i vantaggi e gli ostacoli di tali interazioni. Un rischio particolarmente amplificato nelle interazioni basate su LLM è la facilità apparente con cui possono essere facilitati gli incontri conversazionali. Studi precedenti hanno già scoperto il ruolo illusorio della profondità esplicativa creata dall’utilizzo di spiegazioni nei compiti decisionali, con conseguente eccessivo affidamento sui sistemi di intelligenza artificiale. Se le interazioni umane con i sistemi di supporto decisionale diventeranno ancora più fluide (ad esempio, attraverso interfacce interattive o conversazionali), ci si può aspettare di scoprire più casi di affidamento inappropriato.

Sta diventando sempre più difficile studiare i LLM attraverso l’ottica della loro architettura e degli iperparametri. A questo punto, esistono sufficienti prove per capire che l’intelligenza artificiale generativa può produrre contenuti scritti e visivi di alta qualità che possono essere utilizzati per il bene comune o utilizzati in modo improprio per causare danni. Potsdam Mann et al. [19] sostengono che si instauri una asimmetria di credito-colpa per attribuire responsabilità agli output dei LLM e implicazioni etiche e politiche focalizzate sui LLM.

Cosa bisogna fare in seguito?

È evidente che sono necessarie ulteriori ricerche e lavori empirici per informare l’uso sicuro e robusto dei LLM nei compiti decisionali. Questo è particolarmente evidente considerando le attuali limitazioni in termini di LLM multimodali e multilingue. Ecco una raccolta di alcune domande che rimangono cruciali per determinare fino a che punto possiamo beneficiare in modo coerente unendo i LLM alle decisioni quotidiane:

  • Come possiamo agevolare un affidamento appropriato sui LLM o sui sistemi arricchiti da LLM per decisioni efficaci?
  • Come possiamo aumentare la robustezza, l’affidabilità e la fiducia dei sistemi di supporto decisionale arricchiti da LLM?
  • Come possiamo favorire una fiducia e un affidamento appropriati sui LLM nei contesti decisionali multimodali e multilingue?
  • Come possiamo supportare in modo equo persone con abilità diverse, caratteristiche individuali, conoscenze pregresse, formazione e qualifiche, e altri dati demografici utilizzando i LLM nei compiti decisionali?

Quindi, se hai un LLM a portata di mano, non affrettarti a farne affidamento come supporto decisionale in una scatola nera!

Il dott. ing. Ujwal Gadiraju è un professore associato titolare presso l’Università Tecnologica di Delft. Co-dirige il laboratorio AI “Design@Scale” di Delft e guida una linea di ricerca sull’IA centrata sull’uomo e sul crowd computing. È uno speaker di spicco presso l’ACM e un membro del consiglio di amministrazione di CHI Netherlands. Ujwal dedica parte del suo tempo a lavorare presso Toloka AI con il loro team di intelligenza artificiale, dati e ricerca ed è anche membro del consiglio consultivo di Deeploy, una società in crescita nel settore MLOps.

Riferimenti

  1. Bertrand, A., Belloum, R., Eagan, J. R., & Maxwell, W. (2022, luglio). Come i bias cognitivi influenzano la decisione assistita da XAI: una revisione sistematica. In Atti della Conferenza AAAI/ACM 2022 sull’IA, l’Etica e la Società (pp. 78-91).
  2. Bossaerts, P., & Murawski, C. (2017). Complessità computazionale e decisioni umane. Trends in cognitive sciences, 21(12), 917-929.
  3. Boonprakong, N., He, G., Gadiraju, U., van Berkel, N., Wang, D., Chen, S., Liu, J., Tag, B., Goncalves, J., Dingler, T. (2023). Workshop sulla comprensione e mitigazione dei bias cognitivi nella collaborazione uomo-IA.
  4. Buçinca, Z., Malaya, M. B., & Gajos, K. Z. (2021). Fidarsi o pensare: le funzioni forzanti cognitive possono ridurre la sovraffiducia nell’IA nelle decisioni assistite dall’IA. Atti dell’ACM sull’Interazione Uomo-Computer, 5(CSCW1), 1-21.
  5. Haupt, C. E., & Marks, M. (2023). Consigli medici generati dall’IA: GPT e oltre. Jama, 329(16), 1349-1350.
  6. Kahneman, D. (2011). Pensare, veloce e lento. Macmillan.
  7. Miller, T. (2023, giugno). L’IA spiegabile è morta, lunga vita all’IA spiegabile! Supporto decisionale basato su ipotesi utilizzando l’IA valutativa. In Atti della Conferenza ACM 2023 sulla Correttezza, Responsabilità e Trasparenza (pp. 333-342).
  8. Rastogi, C., Tulio Ribeiro, M., King, N., Nori, H., & Amershi, S. (2023, agosto). Supporto alla collaborazione uomo-IA nell’auditing di LLM con LLM. In Atti della Conferenza AAAI/ACM 2023 sull’IA, l’Etica e la Società (pp. 913-926).
  9. Rastogi, C., Zhang, Y., Wei, D., Varshney, K. R., Dhurandhar, A., & Tomsett, R. (2022). Decidere in modo rapido e lento: il ruolo dei bias cognitivi nelle decisioni assistite dall’IA. Atti dell’ACM sull’Interazione Uomo-Computer, 6(CSCW1), 1-22.
  10. Santos, L. R., & Rosati, A. G. (2015). Le radici evolutive della decisione umana. Annual review of psychology, 66, 321-347.
  11. Schemmer, M., Hemmer, P., Kühl, N., Benz, C., & Satzger, G. (2022). Dovrei seguire i consigli basati sull’IA? Misurare la giusta affidabilità nella decisione uomo-IA. Articolo preprint arXiv:2204.06916.
  12. Schwartz, B. (2004). Il paradosso della scelta: perché più è meno. New York.
  13. Vasconcelos, H., Jörke, M., Grunde-McLaughlin, M., Gerstenberg, T., Bernstein, M. S., & Krishna, R. (2023). Le spiegazioni possono ridurre la sovraffiducia nei sistemi di intelligenza artificiale durante la decisione. Atti dell’ACM sull’Interazione Uomo-Computer, 7(CSCW1), 1-38.
  14. Wu, Qingyun, Gagan Bansal, Jieyu Zhang, Yiran Wu, Shaokun Zhang, Erkang Zhu, Beibin Li, Li Jiang, Xiaoyun Zhang e Chi Wang. AutoGen: Abilitazione delle applicazioni LLM di prossima generazione tramite un framework di conversazione multi-agente. Articolo preprint arXiv:2308.08155 (2023).
  15. Jin, Z., Levine, S., Gonzalez Adauto, F., Kamal, O., Sap, M., Sachan, M., Mihalcea, R., Tenenbaum, J., Schölkopf, B. (2022). Quando fare eccezioni: esplorazione dei modelli linguistici come rappresentazioni del giudizio morale umano. Progressi nei sistemi informativi neurali, 35, pp. 28458-28473.
  16. Hagendorff, T., Fabi, S., & Kosinski, M. (2022). Intuizione delle macchine: scoprire una decisione intuitiva simile alle persone in GPT-3.5. Articolo preprint arXiv:2212.05206.
  17. Erlei, A., Das, R., Meub, L., Anand, A., & Gadiraju, U. (2022, aprile). Quanto vale: gli esseri umani sovrascrivono il loro interesse economico per evitare di trattare con sistemi di intelligenza artificiale. In Atti della Conferenza CHI 2022 sui Fattori umani in Informatica (pp. 1-18).
  18. Rao, A., Kim, J., Kamineni, M., Pang, M., Lie, W., & Succi, M. D. (2023). Valutazione di ChatGPT come supporto aggiuntivo per la decisione radiologica. medRxiv, 2023-02.
  19. Porsdam Mann, S., Earp, B. D., Nyholm, S., Danaher, J., Møller, N., Bowman-Smart, H., … & Savulescu, J. (2023). L’IA generativa comporta una asimmetria di credito-colpa. Nature Machine Intelligence, 1-4.
  20. Dhingra, H., Jayashanker, P., Moghe, S., & Strubell, E. (2023). Le persone queer sono prima di tutto persone: destrutturazione degli stereotipi sull’identità sessuale nei grandi modelli linguistici. Articolo preprint arXiv:2307.00101.
  21. He, G., Kuiper, L., & Gadiraju, U. (2023, aprile). Sapere di sapere: un’illusione di competenza umana può ostacolare un’affidabilità adeguata nei confronti dei sistemi di intelligenza artificiale. In Atti della Conferenza CHI 2023 sui Fattori umani in Informatica (pp. 1-18).