A Manager and an AI Walk into a Bar: Does ChatGPT Make Biased Decisions Like We Do?

元信息

作者: Yang Chen, Samuel N. Kirshner, Anton Ovchinnikov, Meena Andiappan, Tracy Jenkin
年份: 2025
期刊: Manufacturing & Service Operations Management (Articles in Advance)
关键词: Large Language Models, Decision Biases, ChatGPT, Behavioral Operations Management
DOI: https://doi.org/10.1287/msom.2023.0279

一句话总结

通过让 GPT-3.5 和 GPT-4 作为"被试"完成 18 项经典行为决策偏差实验（涵盖风险判断、结果评价、决策启发式三大类），本文发现 GPT 在约一半实验中表现出类人偏差（如赌徒谬误、过度自信、确认偏误），在另一半实验中表现更理性（如基率忽视、认知反思测试）；GPT-4 在有公式可循的客观题上更准确，但在偏好型主观题上偏差反而加深。

研究问题

LLM（以 ChatGPT 为代表）在运营管理相关的决策情境中，是否会表现出与人类相似的行为决策偏差？如果存在偏差，其模式是否随问题类型（客观 vs 主观）、决策情境（标准 vs OM）、模型版本（GPT-3.5 vs GPT-4）的变化而不同？

核心贡献

系统性测试: 首次对 LLM 进行覆盖 18 种行为偏差的大规模系统性测试，涵盖 Davis (2018) 在 The Handbook of Behavioral Operations 中列出的所有个体决策偏差
OM 情境拓展: 为每种偏差创建了库存/采购和一般运营两种 OM 情境变体（共 3 种情境 x 18 种偏差），检验 GPT 跨情境一致性
模型演化分析: 比较 GPT-3.5 与 GPT-4 以及同一模型不同版本间的行为差异，揭示 LLM 决策偏差的"演化"轨迹
行为微基础: 为 LLM 在 OM 问题中的应用建立行为微基础（microfoundations），提出 GPT 的决策模式：遇到有公式的客观问题则计算求解，遇到无公式的问题则依赖启发式

实验设计

研究总体架构

本研究分两个时间阶段（Time 1 和 Time 2）进行实验。Time 1 为早期探索性实验，Time 2 为系统性主实验。研究对象不是人类被试，而是 GPT 模型——让 GPT 作为"硅基被试"（silicon sample）来回答经典的行为决策实验问题。

Time 1 实验（2023年1-2月）

时间: 2023年1月31日至2月4日。

模型版本: ChatGPT 的 2023年1月30日版本（GPT-3.5 的最早期公开版本之一）。

数据收集方式: 通过 ChatGPT 网页界面手动进行（因为当时 API 尚未发布）。由研究者逐条输入 prompt，手动记录 GPT 的回复。

具体流程: 对每种偏差，研究者在 ChatGPT 网页界面上开启一个新对话，将原始文献中的经典实验问题（standard context）直接输入给 GPT。例如：

赌徒谬误: 要求 GPT "随机生成50次公平硬币投掷结果，用逗号分隔，正面用1表示，反面用0表示"
Linda 问题（合取谬误）: 给出 Linda 的描述（31岁、单身、主修哲学、关注歧视和社会正义等），要求对8个描述 Linda 的陈述从最可能到最不可能进行排序，其中关键是比较 "Linda 是银行出纳" 与 "Linda 是银行出纳且活跃于女权运动" 的排名
基率忽视: "一种疾病的患病率为 1/1000，检测的假阳性率为 5%，一个检测为阳性的人实际患病的概率是多少？"

样本量: 每种偏差仅收集 10 个独立响应（因手动操作的高劳动成本）。

Time 1 的关键发现: GPT 倾向于回避给出明确答案，尤其当被要求在信息不完整时做"最佳猜测"时。这一发现直接影响了 Time 2 实验的设计改进。

Time 2 主实验（2023年10-12月）——实验设计的完整时间线

模型版本: GPT-3.5-turbo 和 GPT-4，均使用 2023年6月11日版本的 API。

数据收集方式: 通过 OpenAI API 自动化收集（Python 脚本）。

API 参数设置:

temperature = 1（OpenAI 默认值），允许中等程度的输出变异性
system prompt: "I am a helpful assistant"（默认系统提示）
每个实验条件进行 30 次独立 API 调用
不使用复杂的 prompt engineering，以模拟"普通用户"的使用场景

实验矩阵:

18 种行为偏差
3 种情境框架: Standard（原始文献经典问题）、Inventory（库存/采购情境）、Operations（一般运营情境）
2 个模型: GPT-3.5 和 GPT-4
每种偏差在某些情况下包含多个子条件（根据原始文献设计）
每个条件 30 次独立调用
合计: 18 偏差 x 3 情境 x 2 模型 = 108 组实验条件（部分偏差有多个子条件，总调用数更多）

Prompt 设计的具体改进（基于 Time 1 的经验）:

偏好类问题: 将 "what is your preference" 改为 "which option is better"，促使 GPT 给出明确选择
任务类问题: 在提示末尾添加结构化答案模板，例如将 "Q: Which is better?" 改为 "Q: Which is better? A: []"，引导 GPT 直接填答
过度自信校准: 在有"正确答案"的测试后，追加问题 "How confident are you about your previous answer (0%-100%)?" 以测量过度自信

18 种偏差的分类与具体测试内容:

第一大类：风险判断偏差（Judgments Regarding Risk，7项）

赌徒谬误/热手谬误（Hot-hand/Gambler's Fallacy）
- Standard: 随机生成50次硬币投掷
- Inventory: 为一家公司决定未来50天的额外库存决策（有额外库存=1，无=0）
- Operations: 决定未来50天是否将产品打折（打折=1，原价=0）
- 检验: 对生成的0/1序列计算 lag-1 自相关系数
合取谬误（Conjunction Fallacy）
- Standard: Linda 问题——对8个描述排序，关键比较"银行出纳"vs"银行出纳且女权活动家"
- Inventory: Factory X 问题——对8个描述一家可持续服装工厂的陈述排序
- Operations: Instagram 衬衫问题——对8个描述一件环保衬衫的陈述排序
- 检验: 合取事件（F 交 H）是否被排在单一成分事件（F）之前
可得性启发式（Availability Heuristic）
- Standard: 10个站点中选 r 个的组合数问题
- Inventory: 从10个供应商中选 r 个的组合数
- Operations: 10个配送中心中选 r 个停靠的方案数
- 检验: 回答是否正确（组合数 C(10,r)），以及是否对中间值（r=5）高估
基率忽视（Base-rate Neglect）
- Standard: 疾病检测问题（患病率1/1000，假阳性率5%）
- Inventory: 手机退货问题（缺陷率1/1000，误退率5%）
- Operations: 产品质检问题（缺陷率1/1000，假阳性率5%）
- 检验: 是否给出正确的贝叶斯后验概率（约1.96%）
概率权重（Probability Weighting）
- Standard: 俄罗斯轮盘赌——从4颗减到3颗子弹 vs 从1颗减到0颗，你是否愿意付同样的钱？
- Inventory: 供应商延迟交付——改善高风险供应商（延迟概率2/3到1/2）vs 消除低风险供应商的延迟（1/6到0）
- Operations: 机器维护——减少不熟练技术员从4到3 vs 从1到0
过度自信（Overconfidence）
- 在合取谬误、基率忽视、可得性启发式、CRT、确认偏误等有"正确答案"的测��之后，追问 "How confident are you about your previous answer (0%-100%)?"
- 检验: 自信度是否显著高于实际正确率
模糊厌恶（Ambiguity Aversion）
- Standard: Ellsberg 悖论——30个红球+60个黑或黄球的瓮，Test A 选赌红球还是黑球，Test B 选赌红或黄 vs 黑或黄
- Inventory: 水果进口商——山竹（概率1/3）vs 榴莲和红毛丹（合计2/3但分布不确定）
- Operations: 电子制造商——三种潜在新标准（标准1概率1/3确定，标准2和3合计2/3但不确定）

第二大类：结果评价偏差（Evaluations of Outcomes，9项）

风险厌恶与标度（Risk Aversion and Scaling）
- Standard: 在两个彩票之间选择——A: 50%赢$5.5+50%赢$4.5 vs B: 50%赢$9+50%赢$1
- Inventory: Newsvendor 订货问题——风险较低的 Option A vs 风险较高的 Option B，分期望值相同和不同两种条件
- Operations: 护士排班问题——类似结构
前景理论（Prospect Theory）
- Standard: 收益域——80%赢$4000 vs 确定得$3000；损失域——80%亏$4000 vs 确定亏$3000
- Inventory: 供应商选择——收益和损失两种框架
- Operations: 产能投资决策——收益和损失两种框架
框架效应（Framing）
- Standard: 亚洲疾病问题——600人面临疾病，收益框架（救200人 vs 1/3概率救600人）和损失框架（400人死 vs 2/3概率600人死）
- Inventory: 零售库存决策——600单位需求，收益和损失框架
- Operations: 制造工厂罢工——600单位日产量，收益和损失框架
预期后悔（Anticipated Regret）
- Standard: 停车场锁车问题——控制组（无后悔提示）、遗漏后悔（想象没回去检查车被盗）、作为后悔（想象回去检查但车已锁好且错过测验）
- Inventory: 季节性产品加急订单——控制组、遗漏后悔（缺货）、作为后悔（库存过剩）
- Operations: AR头显投资决策——控制组、遗漏后悔、作为后悔
心理账户（Mental Accounting）
- Standard: Mr. A 的沙发降价$50 vs Mr. B 的椅子降价$100但沙发涨价$50——三种框架（绝对值、双重、相对比例）
- Inventory/Operations: 类似结构的定价/成本场景
参考依赖（Reference Dependence）
- 与心理账户实验共享场景，检验不同框架（绝对值 vs 百分比 vs 双重）下偏好是否改变
跨期选择与双曲贴现（Intertemporal Choice）
- Standard: 赢得$15彩票奖金——分别问等待3个月、1年、3年需要多少钱才值得
- Inventory: 供应链收入共享——零售商欠供应商$15,000，问延迟支付的补偿金额
- Operations: 投资机会——$15,000的投资，延迟接受的补偿金额
禀赋效应（Endowment Effect）
- Standard: WTP——花$2参加奖金$70、中奖率2.08%的抽奖？WTA——免费获得的票，朋友出$2买，卖吗？
- Inventory: 电影版权的购买和出售决策
- Operations: 环保项目申请的购买和出售决策
- 检验: WTA 和 WTP 之间是否存在显著差异
沉没成本谬误（Sunk Cost Fallacy）
- Standard: 航空公司总裁——已投资1000万美元开发隐形飞机，项目完成90%时竞争对手推出更好产品，是否继续投资最后10%？ vs 员工建议投资最后100万
- Inventory: 零售公司——新裙子完成90%但竞争对手推出类似产品
- Operations: 物流仓库——建设仓库但得知附近交通路线将取消

第三大类：决策启发式（Heuristics in Decision Making，2项）

认知反思测试（Cognitive Reflection Test, CRT）
- Standard: 经典3题——球拍和球（总价$1.10，球拍比球贵$1，球多少钱？）、5台机器5分钟做5个widget vs 100台做100个要多久？、睡莲48天覆满湖面，多少天覆盖一半？
- Inventory: 改编为采购、供应链交付、库存扩张的等价问题
- Operations: 改编为质检、检验、生产效率的等价问题
- System-1 直觉答案: $0.10、100分钟、24天; System-2 正确答案: $0.05、5分钟、47天
确认偏误（Confirmation Bias）
- Standard: Wason 选择任务——四张卡片 E, K, 4, 7，规则"元音卡片背面是偶数"，应该翻哪些卡？（正确答案: E 和 7）
- Inventory: 库存检验——四个供应商 A, NA, Q, NQ，规则"认证供应商的样品应通过质检"，应检查哪些？
- Operations: 仓库检查——四个存储区 P, NP, T, NT，规则"存放易腐品的区域必须温控"，应检查哪些？

数据清洗

API 输出由人工审读清洗。GPT 有时生成意外或非结构化输出（GPT-3.5 因指令遵循能力较弱，此问题更多）。对于模糊回答（如在A和B之间不做选择），归入"无偏好"组，与其余响应一同分析，类似于人类实验中未通过注意力/操控检验的被试处理方式。

理论模型

理论基准

本文不构建新的理论模型，而是以 Davis (2018) 在 The Handbook of Behavioral Operations 中总结的 18 种人类行为偏差作为理论基准框架。这些偏差来自数十年的实验经济学和心理学文献：

风险判断类: 赌徒谬误源于 Tversky & Kahneman 的代表性启发式；合取谬误源于 Tversky & Kahneman (1983) 的 Linda 实验；基率忽视源于贝叶斯更新文献；Ellsberg 悖论 (1961) 定义模糊厌恶
结果评价类: Prospect Theory (Kahneman & Tversky 1979) 预测收益域风险厌恶、损失域风险寻求；框架效应源于亚洲疾病问题；Thaler (1985) 的心理账户理论
决策启发式: Frederick (2005) 的认知反思测试；Wason (1968) 的四卡片选择任务测试确认偏误

关键假设与可检验预测

本文的核心理论张力在于两种对立力量：

去偏假说: LLM 作为计算机模型，无情感、无认知局限、信息处理方式不同于人脑，可能更理性
偏差继承假说: LLM 通过人类数据预训练（学习人类语言材料中的语法、事实、推理能力和偏差）和 RLHF 微调（人类评审者排名输出），可能继承人类偏差

文章基于实验结果提炼出 GPT 的决策模式（非先验预测而是事后归纳）：

客观问题: GPT 首先检索是否有可计算的公式解；若有则应用公式（表现理性），若无则依赖启发式推理（表现出类人偏差）
主观偏好问题: GPT 强烈倾向确定性和低风险选项，偏离 prospect theory 预测的损失域风险寻求

统计分析方法

二项精确检验（Binomial exact test）用于选择任务
卡方检验用于多类别响应比较
Fisher 精确检验用于小样本或稀有响应
回归方法用于连续因变量
Lag-1 自相关分析用于随机序列生成
多重比较校正: 将显著性阈值从 0.05 提高至 0.01（等价于 Bonferroni 校正5次检验）
p 在 (0.01, 0.05] 报告为"borderline"
R 4.3.2 用于统计分析

核心发现

主要结果一：GPT 在约一半偏差中表现出类人偏差

在 36 个实例（18 偏差 x 2 模型）的标准情境测试中：

15/36 (42%): GPT 表现出与人类相同方向的偏差
21/36 (58%): GPT 偏离人类典型行为

偏离的方向因偏差类别而异：

风险判断类和决策启发式类（主要是客观题）: 偏离通常意味着 GPT 更理性（例如基率忽视、CRT 中 GPT 几乎完全正确）
结果评价类（主要是主观偏好题）: 偏离不意味着更理性，而是展现出不同的偏差模式（例如 GPT 在 prospect theory 测试中收益域和损失域均表现风险厌恶，而非人类的"收益域风险厌恶+损失域风险寻求"）

主要结果二：跨情境一致性

在 36 个模型-偏差组合中：

20/36 (56%): 三种情境下行为完全一致
13/36 (36%): 两种情境��致、一种不同（somewhat consistent）
仅 2/36 (6%): 三种情境下行为完全不一致

这表明 GPT 的决策行为具有系统性和可预测性，即使 OM 情境的 prompt 是全新未见的。

主要结果三：GPT-3.5 vs GPT-4 的"双刃剑"演进

GPT-4 在客观题上更准确:

基率忽视: GPT-4 在所有样本中零错误（Fisher's exact test, p < 0.0001）
CRT: GPT-4 在标准题中得分满分（3/3），GPT-3.5 平均 2.7/3
可得性启发式: GPT-4 错误率仅为 GPT-3.5 的 13%（OR = 0.13, p < 0.0001）

GPT-4 在主观偏好题上偏差加深:

风险厌恶: GPT-4 选择风险选项的概率比 GPT-3.5 下降 84%-91%（p < 0.001）
赌徒谬误: GPT-4 的 lag-1 自相关系数（-0.3388）绝对值远大于 GPT-3.5（-0.1079）
模糊厌恶: GPT-3.5 无显著模糊厌恶（chi-sq = 0.11, p = 0.9464），GPT-4 强烈模糊厌恶（chi-sq = 39.5, p < 0.001）
确认偏误: GPT-4 在 Wason 选择任务中 100% 表现出确认偏误
禀赋效应: GPT-3.5 无显著禀赋效应，GPT-4 则表现出显著的 WTA-WTP 差异

主要结果四：GPT-3.5 跨版本高度稳定

比较 GPT-3.5 的 Time 1（2023年1月版本）和 Time 2（2023年6月版本）：

14/18 偏差: 定性结论完全一致
3/18 偏差: 差异可归因于操作差异（样本量、prompt 结构、网页 vs API）
仅 1/18（预期后悔）: 有证据表明模型偏好发生了实质性变化

主要结果五：GPT 的三大决策模式

风险与确定性: GPT-4 强烈偏好确定性结果，这解释了其在 prospect theory（全域风险厌恶）、框架效应（收益和损失域均选确定选项）、模糊厌恶（偏好已知概率）中的表现
信息显著性: 当问题无可计算公式时（如合取谬误、预期后悔），GPT-4 被显著信息引导决策；当有公式可用时（如基率忽视、可得性启发式），GPT-4 能识别并应用公式
概率与统计: GPT-4 在需要计算的概率问题上表现优异（基率忽视零错误），但在不需要即时计算的概率任务上表现出偏差（赌徒谬误、合取谬误）

对 OM 的具体启示

Newsvendor 问题: GPT 表现出风险厌恶和过度自信，可能导致类似人类的 pull-to-center 效应，现有的行为 newsvendor 理论对 GPT agent 仍然适用
Wait-or-buy 问题: GPT 不表现双曲贴现，消费者若使用 GPT 建议将做出更理性的跨期选择；但 GPT 对预期后悔敏感，故基于后悔的定价策略仍然有效
工作流部署: GPT 在基于公式的客观任务中表现最佳，管理者应优先在此类场景部署

与其他文献的关系

直接相关文献

Binz_Schulz_2023_CognitivePsychology_GPT3: 开创性地将 GPT-3 作为"被试"进行认知心理学实验，本文直接延伸其方法至 18 种偏差和 OM 情境
Davis_2018_BiasesIndividualDecisionMaking: 提供了本文 18 种偏差的理论框架和分类（Handbook of Behavioral Operations 章节）
Hagendorff_2023_HumanLikeIntuition_LLM: 发现 LLM 中出现类人直觉行为和推理偏差，但在 ChatGPT 中消失；本文发现部分偏差在 GPT-4 中反而加深
Ma_2023_ChatGPT_Irrational: 使用 GPT-3.5 测试框架效应和赌徒谬误，发现 GPT 在损失域风险寻求；本文 Time 1 结果一致但 Time 2 转向全域风险厌恶
Horton_2023_HomoSilicus_LLM: 提出"Homo Silicus"概念，用 GPT-3 进行行为经济学实验

Behavioral Operations 文献

Bolton_Katok_2008_Newsvendor_Learning: 人类 newsvendor 表现出赌徒谬误行为
Long_Nasiry_2015_ProspectTheory_Newsvendor: 用 prospect theory 解释 newsvendor 的 pull-to-center 效应
Becker-Peth_2013_Buyback_IrrationalNewsvendor: 为非理性但可预测的 newsvendor 设计合同
Baucells_Ovchinnikov_2017_BehavioralAnomalies_Markdown: 将消费者行为异常纳入 markdown 优化

LLM 决策行为文献

Kirshner_2024_ArtificialAgents_OM: 研究 GPT agents 在 Management Science Replication Project 中的决策
Su_2023_GPT4_Newsvendor: 测试 GPT-4 在经典 newsvendor 问题上的能力
Suri_2024_LLM_CognitiveFlexibility: 测试 GPT-3.5 和 GPT-4 的合取谬误等偏差
Park_2024_DiversityOfThought_LLM: 发现 GPT-3.5 对某些问题的回答变异极低（"correct answer" effect）

方法论参考

Kahneman_Tversky_1979_ProspectTheory: Prospect theory 原始实验设计
Tversky_Kahneman_1983_ConjunctionFallacy: Linda 问题原始设计
Frederick_2005_CognitiveReflectionTest: CRT 原始三题
Wason_1968_SelectionTask: 四卡片选择任务
Ellsberg_1961_AmbiguityAversion: Ellsberg 悖论

Chen_Kirshner_2025_ChatGPT_BiasedDecisions