Chen_Kirshner_2025_ChatGPT_BiasedDecisions

更新于 2026/7/5

A Manager and an AI Walk into a Bar: Does ChatGPT Make Biased Decisions Like We Do?

元信息

  • 作者: Yang Chen, Samuel N. Kirshner, Anton Ovchinnikov, Meena Andiappan, Tracy Jenkin
  • 年份: 2025
  • 期刊: Manufacturing & Service Operations Management (Articles in Advance)
  • 关键词: Large Language Models, Decision Biases, ChatGPT, Behavioral Operations Management
  • DOI: https://doi.org/10.1287/msom.2023.0279

一句话总结

通过让 GPT-3.5 和 GPT-4 作为"被试"完成 18 项经典行为决策偏差实验(涵盖风险判断、结果评价、决策启发式三大类),本文发现 GPT 在约一半实验中表现出类人偏差(如赌徒谬误、过度自信、确认偏误),在另一半实验中表现更理性(如基率忽视、认知反思测试);GPT-4 在有公式可循的客观题上更准确,但在偏好型主观题上偏差反而加深。

研究问题

LLM(以 ChatGPT 为代表)在运营管理相关的决策情境中,是否会表现出与人类相似的行为决策偏差?如果存在偏差,其模式是否随问题类型(客观 vs 主观)、决策情境(标准 vs OM)、模型版本(GPT-3.5 vs GPT-4)的变化而不同?

核心贡献

  1. 系统性测试: 首次对 LLM 进行覆盖 18 种行为偏差的大规模系统性测试,涵盖 Davis (2018) 在 The Handbook of Behavioral Operations 中列出的所有个体决策偏差
  2. OM 情境拓展: 为每种偏差创建了库存/采购和一般运营两种 OM 情境变体(共 3 种情境 x 18 种偏差),检验 GPT 跨情境一致性
  3. 模型演化分析: 比较 GPT-3.5 与 GPT-4 以及同一模型不同版本间的行为差异,揭示 LLM 决策偏差的"演化"轨迹
  4. 行为微基础: 为 LLM 在 OM 问题中的应用建立行为微基础(microfoundations),提出 GPT 的决策模式:遇到有公式的客观问题则计算求解,遇到无公式的问题则依赖启发式

实验设计

研究总体架构

本研究分两个时间阶段(Time 1 和 Time 2)进行实验。Time 1 为早期探索性实验,Time 2 为系统性主实验。研究对象不是人类被试,而是 GPT 模型——让 GPT 作为"硅基被试"(silicon sample)来回答经典的行为决策实验问题。

Time 1 实验(2023年1-2月)

时间: 2023年1月31日至2月4日。

模型版本: ChatGPT 的 2023年1月30日版本(GPT-3.5 的最早期公开版本之一)。

数据收集方式: 通过 ChatGPT 网页界面手动进行(因为当时 API 尚未发布)。由研究者逐条输入 prompt,手动记录 GPT 的回复。

具体流程: 对每种偏差,研究者在 ChatGPT 网页界面上开启一个新对话,将原始文献中的经典实验问题(standard context)直接输入给 GPT。例如:

  • 赌徒谬误: 要求 GPT "随机生成50次公平硬币投掷结果,用逗号分隔,正面用1表示,反面用0表示"
  • Linda 问题(合取谬误): 给出 Linda 的描述(31岁、单身、主修哲学、关注歧视和社会正义等),要求对8个描述 Linda 的陈述从最可能到最不可能进行排序,其中关键是比较 "Linda 是银行出纳" 与 "Linda 是银行出纳且活跃于女权运动" 的排名
  • 基率忽视: "一种疾病的患病率为 1/1000,检测的假阳性率为 5%,一个检测为阳性的人实际患病的概率是多少?"

样本量: 每种偏差仅收集 10 个独立响应(因手动操作的高劳动成本)。

Time 1 的关键发现: GPT 倾向于回避给出明确答案,尤其当被要求在信息不完整时做"最佳猜测"时。这一发现直接影响了 Time 2 实验的设计改进。

Time 2 主实验(2023年10-12月)——实验设计的完整时间线

模型版本: GPT-3.5-turbo 和 GPT-4,均使用 2023年6月11日版本的 API。

数据收集方式: 通过 OpenAI API 自动化收集(Python 脚本)。

API 参数设置:

  • temperature = 1(OpenAI 默认值),允许中等程度的输出变异性
  • system prompt: "I am a helpful assistant"(默认系统提示)
  • 每个实验条件进行 30 次独立 API 调用
  • 不使用复杂的 prompt engineering,以模拟"普通用户"的使用场景

实验矩阵:

  • 18 种行为偏差
  • 3 种情境框架: Standard(原始文献经典问题)、Inventory(库存/采购情境)、Operations(一般运营情境)
  • 2 个模型: GPT-3.5 和 GPT-4
  • 每种偏差在某些情况下包含多个子条件(根据原始文献设计)
  • 每个条件 30 次独立调用
  • 合计: 18 偏差 x 3 情境 x 2 模型 = 108 组实验条件(部分偏差有多个子条件,总调用数更多)

Prompt 设计的具体改进(基于 Time 1 的经验):

  1. 偏好类问题: 将 "what is your preference" 改为 "which option is better",促使 GPT 给出明确选择
  2. 任务类问题: 在提示末尾添加结构化答案模板,例如将 "Q: Which is better?" 改为 "Q: Which is better? A: []",引导 GPT 直接填答
  3. 过度自信校准: 在有"正确答案"的测试后,追加问题 "How confident are you about your previous answer (0%-100%)?" 以测量过度自信

18 种偏差的分类与具体测试内容:

第一大类:风险判断偏差(Judgments Regarding Risk,7项)

  1. 赌徒谬误/热手谬误(Hot-hand/Gambler's Fallacy)

    • Standard: 随机生成50次硬币投掷
    • Inventory: 为一家公司决定未来50天的额外库存决策(有额外库存=1,无=0)
    • Operations: 决定未来50天是否将产品打折(打折=1,原价=0)
    • 检验: 对生成的0/1序列计算 lag-1 自相关系数
  2. 合取谬误(Conjunction Fallacy)

    • Standard: Linda 问题——对8个描述排序,关键比较"银行出纳"vs"银行出纳且女权活动家"
    • Inventory: Factory X 问题——对8个描述一家可持续服装工厂的陈述排序
    • Operations: Instagram 衬衫问题——对8个描述一件环保衬衫的陈述排序
    • 检验: 合取事件(F 交 H)是否被排在单一成分事件(F)之前
  3. 可得性启发式(Availability Heuristic)

    • Standard: 10个站点中选 r 个的组合数问题
    • Inventory: 从10个供应商中选 r 个的组合数
    • Operations: 10个配送中心中选 r 个停靠的方案数
    • 检验: 回答是否正确(组合数 C(10,r)),以及是否对中间值(r=5)高估
  4. 基率忽视(Base-rate Neglect)

    • Standard: 疾病检测问题(患病率1/1000,假阳性率5%)
    • Inventory: 手机退货问题(缺陷率1/1000,误退率5%)
    • Operations: 产品质检问题(缺陷率1/1000,假阳性率5%)
    • 检验: 是否给出正确的贝叶斯后验概率(约1.96%)
  5. 概率权重(Probability Weighting)

    • Standard: 俄罗斯轮盘赌——从4颗减到3颗子弹 vs 从1颗减到0颗,你是否愿意付同样的钱?
    • Inventory: 供应商延迟交付——改善高风险供应商(延迟概率2/3到1/2)vs 消除低风险供应商的延迟(1/6到0)
    • Operations: 机器维护——减少不熟练技术员从4到3 vs 从1到0
  6. 过度自信(Overconfidence)

    • 在合取谬误、基率忽视、可得性启发式、CRT、确认偏误等有"正确答案"的测��之后,追问 "How confident are you about your previous answer (0%-100%)?"
    • 检验: 自信度是否显著高于实际正确率
  7. 模糊厌恶(Ambiguity Aversion)

    • Standard: Ellsberg 悖论——30个红球+60个黑或黄球的瓮,Test A 选赌红球还是黑球,Test B 选赌红或黄 vs 黑或黄
    • Inventory: 水果进口商——山竹(概率1/3)vs 榴莲和红毛丹(合计2/3但分布不确定)
    • Operations: 电子制造商——三种潜在新标准(标准1概率1/3确定,标准2和3合计2/3但不确定)

第二大类:结果评价偏差(Evaluations of Outcomes,9项)

  1. 风险厌恶与标度(Risk Aversion and Scaling)

    • Standard: 在两个彩票之间选择——A: 50%赢$5.5+50%赢$4.5 vs B: 50%赢$9+50%赢$1
    • Inventory: Newsvendor 订货问题——风险较低的 Option A vs 风险较高的 Option B,分期望值相同和不同两种条件
    • Operations: 护士排班问题——类似结构
  2. 前景理论(Prospect Theory)

    • Standard: 收益域——80%赢$4000 vs 确定得$3000;损失域——80%亏$4000 vs 确定亏$3000
    • Inventory: 供应商选择——收益和损失两种框架
    • Operations: 产能投资决策——收益和损失两种框架
  3. 框架效应(Framing)

    • Standard: 亚洲疾病问题——600人面临疾病,收益框架(救200人 vs 1/3概率救600人)和损失框架(400人死 vs 2/3概率600人死)
    • Inventory: 零售库存决策——600单位需求,收益和损失框架
    • Operations: 制造工厂罢工——600单位日产量,收益和损失框架
  4. 预期后悔(Anticipated Regret)

    • Standard: 停车场锁车问题——控制组(无后悔提示)、遗漏后悔(想象没回去检查车被盗)、作为后悔(想象回去检查但车已锁好且错过测验)
    • Inventory: 季节性产品加急订单——控制组、遗漏后悔(缺货)、作为后悔(库存过剩)
    • Operations: AR头显投资决策——控制组、遗漏后悔、作为后悔
  5. 心理账户(Mental Accounting)

    • Standard: Mr. A 的沙发降价$50 vs Mr. B 的椅子降价$100但沙发涨价$50——三种框架(绝对值、双重、相对比例)
    • Inventory/Operations: 类似结构的定价/成本场景
  6. 参考依赖(Reference Dependence)

    • 与心理账户实验共享场景,检验不同框架(绝对值 vs 百分比 vs 双重)下偏好是否改变
  7. 跨期选择与双曲贴现(Intertemporal Choice)

    • Standard: 赢得$15彩票奖金——分别问等待3个月、1年、3年需要多少钱才值得
    • Inventory: 供应链收入共享——零售商欠供应商$15,000,问延迟支付的补偿金额
    • Operations: 投资机会——$15,000的投资,延迟接受的补偿金额
  8. 禀赋效应(Endowment Effect)

    • Standard: WTP——花$2参加奖金$70、中奖率2.08%的抽奖?WTA——免费获得的票,朋友出$2买,卖吗?
    • Inventory: 电影版权的购买和出售决策
    • Operations: 环保项目申请的购买和出售决策
    • 检验: WTA 和 WTP 之间是否存在显著差异
  9. 沉没成本谬误(Sunk Cost Fallacy)

    • Standard: 航空公司总裁——已投资1000万美元开发隐形飞机,项目完成90%时竞争对手推出更好产品,是否继续投资最后10%? vs 员工建议投资最后100万
    • Inventory: 零售公司——新裙子完成90%但竞争对手推出类似产品
    • Operations: 物流仓库——建设仓库但得知附近交通路线将取消

第三大类:决策启发式(Heuristics in Decision Making,2项)

  1. 认知反思测试(Cognitive Reflection Test, CRT)

    • Standard: 经典3题——球拍和球(总价$1.10,球拍比球贵$1,球多少钱?)、5台机器5分钟做5个widget vs 100台做100个要多久?、睡莲48天覆满湖面,多少天覆盖一半?
    • Inventory: 改编为采购、供应链交付、库存扩张的等价问题
    • Operations: 改编为质检、检验、生产效率的等价问题
    • System-1 直觉答案: $0.10、100分钟、24天; System-2 正确答案: $0.05、5分钟、47天
  2. 确认偏误(Confirmation Bias)

    • Standard: Wason 选择任务——四张卡片 E, K, 4, 7,规则"元音卡片背面是偶数",应该翻哪些卡?(正确答案: E 和 7)
    • Inventory: 库存检验——四个供应商 A, NA, Q, NQ,规则"认证供应商的样品应通过质检",应检查哪些?
    • Operations: 仓库检查——四个存储区 P, NP, T, NT,规则"存放易腐品的区域必须温控",应检查哪些?

数据清洗

API 输出由人工审读清洗。GPT 有时生成意外或非结构化输出(GPT-3.5 因指令遵循能力较弱,此问题更多)。对于模糊回答(如在A和B之间不做选择),归入"无偏好"组,与其余响应一同分析,类似于人类实验中未通过注意力/操控检验的被试处理方式。


理论模型

理论基准

本文不构建新的理论模型,而是以 Davis (2018) 在 The Handbook of Behavioral Operations 中总结的 18 种人类行为偏差作为理论基准框架。这些偏差来自数十年的实验经济学和心理学文献:

  • 风险判断类: 赌徒谬误源于 Tversky & Kahneman 的代表性启发式;合取谬误源于 Tversky & Kahneman (1983) 的 Linda 实验;基率忽视源于贝叶斯更新文献;Ellsberg 悖论 (1961) 定义模糊厌恶
  • 结果评价类: Prospect Theory (Kahneman & Tversky 1979) 预测收益域风险厌恶、损失域风险寻求;框架效应源于亚洲疾病问题;Thaler (1985) 的心理账户理论
  • 决策启发式: Frederick (2005) 的认知反思测试;Wason (1968) 的四卡片选择任务测试确认偏误

关键假设与可检验预测

本文的核心理论张力在于两种对立力量:

  1. 去偏假说: LLM 作为计算机模型,无情感、无认知局限、信息处理方式不同于人脑,可能更理性
  2. 偏差继承假说: LLM 通过人类数据预训练(学习人类语言材料中的语法、事实、推理能力和偏差)和 RLHF 微调(人类评审者排名输出),可能继承人类偏差

文章基于实验结果提炼出 GPT 的决策模式(非先验预测而是事后归纳):

  • 客观问题: GPT 首先检索是否有可计算的公式解;若有则应用公式(表现理性),若无则依赖启发式推理(表现出类人偏差)
  • 主观偏好问题: GPT 强烈倾向确定性和低风险选项,偏离 prospect theory 预测的损失域风险寻求

统计分析方法

  • 二项精确检验(Binomial exact test)用于选择任务
  • 卡方检验用于多类别响应比较
  • Fisher 精确检验用于小样本或稀有响应
  • 回归方法用于连续因变量
  • Lag-1 自相关分析用于随机序列生成
  • 多重比较校正: 将显著性阈值从 0.05 提高至 0.01(等价于 Bonferroni 校正5次检验)
  • p 在 (0.01, 0.05] 报告为"borderline"
  • R 4.3.2 用于统计分析

核心发现

主要结果一:GPT 在约一半偏差中表现出类人偏差

在 36 个实例(18 偏差 x 2 模型)的标准情境测试中:

  • 15/36 (42%): GPT 表现出与人类相同方向的偏差
  • 21/36 (58%): GPT 偏离人类典型行为

偏离的方向因偏差类别而异:

  • 风险判断类和决策启发式类(主要是客观题): 偏离通常意味着 GPT 更理性(例如基率忽视、CRT 中 GPT 几乎完全正确)
  • 结果评价类(主要是主观偏好题): 偏离不意味着更理性,而是展现出不同的偏差模式(例如 GPT 在 prospect theory 测试中收益域和损失域均表现风险厌恶,而非人类的"收益域风险厌恶+损失域风险寻求")

主要结果二:跨情境一致性

在 36 个模型-偏差组合中:

  • 20/36 (56%): 三种情境下行为完全一致
  • 13/36 (36%): 两种情境���致、一种不同(somewhat consistent)
  • 仅 2/36 (6%): 三种情境下行为完全不一致

这表明 GPT 的决策行为具有系统性和可预测性,即使 OM 情境的 prompt 是全新未见的。

主要结果三:GPT-3.5 vs GPT-4 的"双刃剑"演进

GPT-4 在客观题上更准确:

  • 基率忽视: GPT-4 在所有样本中零错误(Fisher's exact test, p < 0.0001)
  • CRT: GPT-4 在标准题中得分满分(3/3),GPT-3.5 平均 2.7/3
  • 可得性启发式: GPT-4 错误率仅为 GPT-3.5 的 13%(OR = 0.13, p < 0.0001)

GPT-4 在主观偏好题上偏差加深:

  • 风险厌恶: GPT-4 选择风险选项的概率比 GPT-3.5 下降 84%-91%(p < 0.001)
  • 赌徒谬误: GPT-4 的 lag-1 自相关系数(-0.3388)绝对值远大于 GPT-3.5(-0.1079)
  • 模糊厌恶: GPT-3.5 无显著模糊厌恶(chi-sq = 0.11, p = 0.9464),GPT-4 强烈模糊厌恶(chi-sq = 39.5, p < 0.001)
  • 确认偏误: GPT-4 在 Wason 选择任务中 100% 表现出确认偏误
  • 禀赋效应: GPT-3.5 无显著禀赋效应,GPT-4 则表现出显著的 WTA-WTP 差异

主要结果四:GPT-3.5 跨版本高度稳定

比较 GPT-3.5 的 Time 1(2023年1月版本)和 Time 2(2023年6月版本):

  • 14/18 偏差: 定性结论完全一致
  • 3/18 偏差: 差异可归因于操作差异(样本量、prompt 结构、网页 vs API)
  • 仅 1/18(预期后悔): 有证据表明模型偏好发生了实质性变化

主要结果五:GPT 的三大决策模式

  1. 风险与确定性: GPT-4 强烈偏好确定性结果,这解释了其在 prospect theory(全域风险厌恶)、框架效应(收益和损失域均选确定选项)、模糊厌恶(偏好已知概率)中的表现
  2. 信息显著性: 当问题无可计算公式时(如合取谬误、预期后悔),GPT-4 被显著信息引导决策;当有公式可用时(如基率忽视、可得性启发式),GPT-4 能识别并应用公式
  3. 概率与统计: GPT-4 在需要计算的概率问题上表现优异(基率忽视零错误),但在不需要即时计算的概率任务上表现出偏差(赌徒谬误、合取谬误)

对 OM 的具体启示

  • Newsvendor 问题: GPT 表现出风险厌恶和过度自信,可能导致类似人类的 pull-to-center 效应,现有的行为 newsvendor 理论对 GPT agent 仍然适用
  • Wait-or-buy 问题: GPT 不表现双曲贴现,消费者若使用 GPT 建议将做出更理性的跨期选择;但 GPT 对预期后悔敏感,故基于后悔的定价策略仍然有效
  • 工作流部署: GPT 在基于公式的客观任务中表现最佳,管理者应优先在此类场景部署

与其他文献的关系

直接相关文献

  • Binz_Schulz_2023_CognitivePsychology_GPT3: 开创性地将 GPT-3 作为"被试"进行认知心理学实验,本文直接延伸其方法至 18 种偏差和 OM 情境
  • Davis_2018_BiasesIndividualDecisionMaking: 提供了本文 18 种偏差的理论框架和分类(Handbook of Behavioral Operations 章节)
  • Hagendorff_2023_HumanLikeIntuition_LLM: 发现 LLM 中出现类人直觉行为和推理偏差,但在 ChatGPT 中消失;本文发现部分偏差在 GPT-4 中反而加深
  • Ma_2023_ChatGPT_Irrational: 使用 GPT-3.5 测试框架效应和赌徒谬误,发现 GPT 在损失域风险寻求;本文 Time 1 结果一致但 Time 2 转向全域风险厌恶
  • Horton_2023_HomoSilicus_LLM: 提出"Homo Silicus"概念,用 GPT-3 进行行为经济学实验

Behavioral Operations 文献

  • Bolton_Katok_2008_Newsvendor_Learning: 人类 newsvendor 表现出赌徒谬误行为
  • Long_Nasiry_2015_ProspectTheory_Newsvendor: 用 prospect theory 解释 newsvendor 的 pull-to-center 效应
  • Becker-Peth_2013_Buyback_IrrationalNewsvendor: 为非理性但可预测的 newsvendor 设计合同
  • Baucells_Ovchinnikov_2017_BehavioralAnomalies_Markdown: 将消费者行为异常纳入 markdown 优化

LLM 决策行为文献

  • Kirshner_2024_ArtificialAgents_OM: 研究 GPT agents 在 Management Science Replication Project 中的决策
  • Su_2023_GPT4_Newsvendor: 测试 GPT-4 在经典 newsvendor 问题上的能力
  • Suri_2024_LLM_CognitiveFlexibility: 测试 GPT-3.5 和 GPT-4 的合取谬误等偏差
  • Park_2024_DiversityOfThought_LLM: 发现 GPT-3.5 对某些问题的回答变异极低("correct answer" effect)

方法论参考

  • Kahneman_Tversky_1979_ProspectTheory: Prospect theory 原始实验设计
  • Tversky_Kahneman_1983_ConjunctionFallacy: Linda 问题原始设计
  • Frederick_2005_CognitiveReflectionTest: CRT 原始三题
  • Wason_1968_SelectionTask: 四卡片选择任务
  • Ellsberg_1961_AmbiguityAversion: Ellsberg 悖论