Chen_Kirshner_2025_ChatGPT_BiasedDecisions
A Manager and an AI Walk into a Bar: Does ChatGPT Make Biased Decisions Like We Do?
元信息
- 作者: Yang Chen, Samuel N. Kirshner, Anton Ovchinnikov, Meena Andiappan, Tracy Jenkin
- 年份: 2025
- 期刊: Manufacturing & Service Operations Management (Articles in Advance)
- 关键词: Large Language Models, Decision Biases, ChatGPT, Behavioral Operations Management
- DOI: https://doi.org/10.1287/msom.2023.0279
一句话总结
通过让 GPT-3.5 和 GPT-4 作为"被试"完成 18 项经典行为决策偏差实验(涵盖风险判断、结果评价、决策启发式三大类),本文发现 GPT 在约一半实验中表现出类人偏差(如赌徒谬误、过度自信、确认偏误),在另一半实验中表现更理性(如基率忽视、认知反思测试);GPT-4 在有公式可循的客观题上更准确,但在偏好型主观题上偏差反而加深。
研究问题
LLM(以 ChatGPT 为代表)在运营管理相关的决策情境中,是否会表现出与人类相似的行为决策偏差?如果存在偏差,其模式是否随问题类型(客观 vs 主观)、决策情境(标准 vs OM)、模型版本(GPT-3.5 vs GPT-4)的变化而不同?
核心贡献
- 系统性测试: 首次对 LLM 进行覆盖 18 种行为偏差的大规模系统性测试,涵盖 Davis (2018) 在 The Handbook of Behavioral Operations 中列出的所有个体决策偏差
- OM 情境拓展: 为每种偏差创建了库存/采购和一般运营两种 OM 情境变体(共 3 种情境 x 18 种偏差),检验 GPT 跨情境一致性
- 模型演化分析: 比较 GPT-3.5 与 GPT-4 以及同一模型不同版本间的行为差异,揭示 LLM 决策偏差的"演化"轨迹
- 行为微基础: 为 LLM 在 OM 问题中的应用建立行为微基础(microfoundations),提出 GPT 的决策模式:遇到有公式的客观问题则计算求解,遇到无公式的问题则依赖启发式
实验设计
研究总体架构
本研究分两个时间阶段(Time 1 和 Time 2)进行实验。Time 1 为早期探索性实验,Time 2 为系统性主实验。研究对象不是人类被试,而是 GPT 模型——让 GPT 作为"硅基被试"(silicon sample)来回答经典的行为决策实验问题。
Time 1 实验(2023年1-2月)
时间: 2023年1月31日至2月4日。
模型版本: ChatGPT 的 2023年1月30日版本(GPT-3.5 的最早期公开版本之一)。
数据收集方式: 通过 ChatGPT 网页界面手动进行(因为当时 API 尚未发布)。由研究者逐条输入 prompt,手动记录 GPT 的回复。
具体流程: 对每种偏差,研究者在 ChatGPT 网页界面上开启一个新对话,将原始文献中的经典实验问题(standard context)直接输入给 GPT。例如:
- 赌徒谬误: 要求 GPT "随机生成50次公平硬币投掷结果,用逗号分隔,正面用1表示,反面用0表示"
- Linda 问题(合取谬误): 给出 Linda 的描述(31岁、单身、主修哲学、关注歧视和社会正义等),要求对8个描述 Linda 的陈述从最可能到最不可能进行排序,其中关键是比较 "Linda 是银行出纳" 与 "Linda 是银行出纳且活跃于女权运动" 的排名
- 基率忽视: "一种疾病的患病率为 1/1000,检测的假阳性率为 5%,一个检测为阳性的人实际患病的概率是多少?"
样本量: 每种偏差仅收集 10 个独立响应(因手动操作的高劳动成本)。
Time 1 的关键发现: GPT 倾向于回避给出明确答案,尤其当被要求在信息不完整时做"最佳猜测"时。这一发现直接影响了 Time 2 实验的设计改进。
Time 2 主实验(2023年10-12月)——实验设计的完整时间线
模型版本: GPT-3.5-turbo 和 GPT-4,均使用 2023年6月11日版本的 API。
数据收集方式: 通过 OpenAI API 自动化收集(Python 脚本)。
API 参数设置:
- temperature = 1(OpenAI 默认值),允许中等程度的输出变异性
- system prompt: "I am a helpful assistant"(默认系统提示)
- 每个实验条件进行 30 次独立 API 调用
- 不使用复杂的 prompt engineering,以模拟"普通用户"的使用场景
实验矩阵:
- 18 种行为偏差
- 3 种情境框架: Standard(原始文献经典问题)、Inventory(库存/采购情境)、Operations(一般运营情境)
- 2 个模型: GPT-3.5 和 GPT-4
- 每种偏差在某些情况下包含多个子条件(根据原始文献设计)
- 每个条件 30 次独立调用
- 合计: 18 偏差 x 3 情境 x 2 模型 = 108 组实验条件(部分偏差有多个子条件,总调用数更多)
Prompt 设计的具体改进(基于 Time 1 的经验):
- 偏好类问题: 将 "what is your preference" 改为 "which option is better",促使 GPT 给出明确选择
- 任务类问题: 在提示末尾添加结构化答案模板,例如将 "Q: Which is better?" 改为 "Q: Which is better? A: []",引导 GPT 直接填答
- 过度自信校准: 在有"正确答案"的测试后,追加问题 "How confident are you about your previous answer (0%-100%)?" 以测量过度自信
18 种偏差的分类与具体测试内容:
第一大类:风险判断偏差(Judgments Regarding Risk,7项)
-
赌徒谬误/热手谬误(Hot-hand/Gambler's Fallacy)
- Standard: 随机生成50次硬币投掷
- Inventory: 为一家公司决定未来50天的额外库存决策(有额外库存=1,无=0)
- Operations: 决定未来50天是否将产品打折(打折=1,原价=0)
- 检验: 对生成的0/1序列计算 lag-1 自相关系数
-
合取谬误(Conjunction Fallacy)
- Standard: Linda 问题——对8个描述排序,关键比较"银行出纳"vs"银行出纳且女权活动家"
- Inventory: Factory X 问题——对8个描述一家可持续服装工厂的陈述排序
- Operations: Instagram 衬衫问题——对8个描述一件环保衬衫的陈述排序
- 检验: 合取事件(F 交 H)是否被排在单一成分事件(F)之前
-
可得性启发式(Availability Heuristic)
- Standard: 10个站点中选 r 个的组合数问题
- Inventory: 从10个供应商中选 r 个的组合数
- Operations: 10个配送中心中选 r 个停靠的方案数
- 检验: 回答是否正确(组合数 C(10,r)),以及是否对中间值(r=5)高估
-
基率忽视(Base-rate Neglect)
- Standard: 疾病检测问题(患病率1/1000,假阳性率5%)
- Inventory: 手机退货问题(缺陷率1/1000,误退率5%)
- Operations: 产品质检问题(缺陷率1/1000,假阳性率5%)
- 检验: 是否给出正确的贝叶斯后验概率(约1.96%)
-
概率权重(Probability Weighting)
- Standard: 俄罗斯轮盘赌——从4颗减到3颗子弹 vs 从1颗减到0颗,你是否愿意付同样的钱?
- Inventory: 供应商延迟交付——改善高风险供应商(延迟概率2/3到1/2)vs 消除低风险供应商的延迟(1/6到0)
- Operations: 机器维护——减少不熟练技术员从4到3 vs 从1到0
-
过度自信(Overconfidence)
- 在合取谬误、基率忽视、可得性启发式、CRT、确认偏误等有"正确答案"的测��之后,追问 "How confident are you about your previous answer (0%-100%)?"
- 检验: 自信度是否显著高于实际正确率
-
模糊厌恶(Ambiguity Aversion)
- Standard: Ellsberg 悖论——30个红球+60个黑或黄球的瓮,Test A 选赌红球还是黑球,Test B 选赌红或黄 vs 黑或黄
- Inventory: 水果进口商——山竹(概率1/3)vs 榴莲和红毛丹(合计2/3但分布不确定)
- Operations: 电子制造商——三种潜在新标准(标准1概率1/3确定,标准2和3合计2/3但不确定)
第二大类:结果评价偏差(Evaluations of Outcomes,9项)
-
风险厌恶与标度(Risk Aversion and Scaling)
- Standard: 在两个彩票之间选择——A: 50%赢$5.5+50%赢$4.5 vs B: 50%赢$9+50%赢$1
- Inventory: Newsvendor 订货问题——风险较低的 Option A vs 风险较高的 Option B,分期望值相同和不同两种条件
- Operations: 护士排班问题——类似结构
-
前景理论(Prospect Theory)
- Standard: 收益域——80%赢$4000 vs 确定得$3000;损失域——80%亏$4000 vs 确定亏$3000
- Inventory: 供应商选择——收益和损失两种框架
- Operations: 产能投资决策——收益和损失两种框架
-
框架效应(Framing)
- Standard: 亚洲疾病问题——600人面临疾病,收益框架(救200人 vs 1/3概率救600人)和损失框架(400人死 vs 2/3概率600人死)
- Inventory: 零售库存决策——600单位需求,收益和损失框架
- Operations: 制造工厂罢工——600单位日产量,收益和损失框架
-
预期后悔(Anticipated Regret)
- Standard: 停车场锁车问题——控制组(无后悔提示)、遗漏后悔(想象没回去检查车被盗)、作为后悔(想象回去检查但车已锁好且错过测验)
- Inventory: 季节性产品加急订单——控制组、遗漏后悔(缺货)、作为后悔(库存过剩)
- Operations: AR头显投资决策——控制组、遗漏后悔、作为后悔
-
心理账户(Mental Accounting)
- Standard: Mr. A 的沙发降价$50 vs Mr. B 的椅子降价$100但沙发涨价$50——三种框架(绝对值、双重、相对比例)
- Inventory/Operations: 类似结构的定价/成本场景
-
参考依赖(Reference Dependence)
- 与心理账户实验共享场景,检验不同框架(绝对值 vs 百分比 vs 双重)下偏好是否改变
-
跨期选择与双曲贴现(Intertemporal Choice)
- Standard: 赢得$15彩票奖金——分别问等待3个月、1年、3年需要多少钱才值得
- Inventory: 供应链收入共享——零售商欠供应商$15,000,问延迟支付的补偿金额
- Operations: 投资机会——$15,000的投资,延迟接受的补偿金额
-
禀赋效应(Endowment Effect)
- Standard: WTP——花$2参加奖金$70、中奖率2.08%的抽奖?WTA——免费获得的票,朋友出$2买,卖吗?
- Inventory: 电影版权的购买和出售决策
- Operations: 环保项目申请的购买和出售决策
- 检验: WTA 和 WTP 之间是否存在显著差异
-
沉没成本谬误(Sunk Cost Fallacy)
- Standard: 航空公司总裁——已投资1000万美元开发隐形飞机,项目完成90%时竞争对手推出更好产品,是否继续投资最后10%? vs 员工建议投资最后100万
- Inventory: 零售公司——新裙子完成90%但竞争对手推出类似产品
- Operations: 物流仓库——建设仓库但得知附近交通路线将取消
第三大类:决策启发式(Heuristics in Decision Making,2项)
-
认知反思测试(Cognitive Reflection Test, CRT)
- Standard: 经典3题——球拍和球(总价$1.10,球拍比球贵$1,球多少钱?)、5台机器5分钟做5个widget vs 100台做100个要多久?、睡莲48天覆满湖面,多少天覆盖一半?
- Inventory: 改编为采购、供应链交付、库存扩张的等价问题
- Operations: 改编为质检、检验、生产效率的等价问题
- System-1 直觉答案: $0.10、100分钟、24天; System-2 正确答案: $0.05、5分钟、47天
-
确认偏误(Confirmation Bias)
- Standard: Wason 选择任务——四张卡片 E, K, 4, 7,规则"元音卡片背面是偶数",应该翻哪些卡?(正确答案: E 和 7)
- Inventory: 库存检验——四个供应商 A, NA, Q, NQ,规则"认证供应商的样品应通过质检",应检查哪些?
- Operations: 仓库检查——四个存储区 P, NP, T, NT,规则"存放易腐品的区域必须温控",应检查哪些?
数据清洗
API 输出由人工审读清洗。GPT 有时生成意外或非结构化输出(GPT-3.5 因指令遵循能力较弱,此问题更多)。对于模糊回答(如在A和B之间不做选择),归入"无偏好"组,与其余响应一同分析,类似于人类实验中未通过注意力/操控检验的被试处理方式。
理论模型
理论基准
本文不构建新的理论模型,而是以 Davis (2018) 在 The Handbook of Behavioral Operations 中总结的 18 种人类行为偏差作为理论基准框架。这些偏差来自数十年的实验经济学和心理学文献:
- 风险判断类: 赌徒谬误源于 Tversky & Kahneman 的代表性启发式;合取谬误源于 Tversky & Kahneman (1983) 的 Linda 实验;基率忽视源于贝叶斯更新文献;Ellsberg 悖论 (1961) 定义模糊厌恶
- 结果评价类: Prospect Theory (Kahneman & Tversky 1979) 预测收益域风险厌恶、损失域风险寻求;框架效应源于亚洲疾病问题;Thaler (1985) 的心理账户理论
- 决策启发式: Frederick (2005) 的认知反思测试;Wason (1968) 的四卡片选择任务测试确认偏误
关键假设与可检验预测
本文的核心理论张力在于两种对立力量:
- 去偏假说: LLM 作为计算机模型,无情感、无认知局限、信息处理方式不同于人脑,可能更理性
- 偏差继承假说: LLM 通过人类数据预训练(学习人类语言材料中的语法、事实、推理能力和偏差)和 RLHF 微调(人类评审者排名输出),可能继承人类偏差
文章基于实验结果提炼出 GPT 的决策模式(非先验预测而是事后归纳):
- 客观问题: GPT 首先检索是否有可计算的公式解;若有则应用公式(表现理性),若无则依赖启发式推理(表现出类人偏差)
- 主观偏好问题: GPT 强烈倾向确定性和低风险选项,偏离 prospect theory 预测的损失域风险寻求
统计分析方法
- 二项精确检验(Binomial exact test)用于选择任务
- 卡方检验用于多类别响应比较
- Fisher 精确检验用于小样本或稀有响应
- 回归方法用于连续因变量
- Lag-1 自相关分析用于随机序列生成
- 多重比较校正: 将显著性阈值从 0.05 提高至 0.01(等价于 Bonferroni 校正5次检验)
- p 在 (0.01, 0.05] 报告为"borderline"
- R 4.3.2 用于统计分析
核心发现
主要结果一:GPT 在约一半偏差中表现出类人偏差
在 36 个实例(18 偏差 x 2 模型)的标准情境测试中:
- 15/36 (42%): GPT 表现出与人类相同方向的偏差
- 21/36 (58%): GPT 偏离人类典型行为
偏离的方向因偏差类别而异:
- 风险判断类和决策启发式类(主要是客观题): 偏离通常意味着 GPT 更理性(例如基率忽视、CRT 中 GPT 几乎完全正确)
- 结果评价类(主要是主观偏好题): 偏离不意味着更理性,而是展现出不同的偏差模式(例如 GPT 在 prospect theory 测试中收益域和损失域均表现风险厌恶,而非人类的"收益域风险厌恶+损失域风险寻求")
主要结果二:跨情境一致性
在 36 个模型-偏差组合中:
- 20/36 (56%): 三种情境下行为完全一致
- 13/36 (36%): 两种情境���致、一种不同(somewhat consistent)
- 仅 2/36 (6%): 三种情境下行为完全不一致
这表明 GPT 的决策行为具有系统性和可预测性,即使 OM 情境的 prompt 是全新未见的。
主要结果三:GPT-3.5 vs GPT-4 的"双刃剑"演进
GPT-4 在客观题上更准确:
- 基率忽视: GPT-4 在所有样本中零错误(Fisher's exact test, p < 0.0001)
- CRT: GPT-4 在标准题中得分满分(3/3),GPT-3.5 平均 2.7/3
- 可得性启发式: GPT-4 错误率仅为 GPT-3.5 的 13%(OR = 0.13, p < 0.0001)
GPT-4 在主观偏好题上偏差加深:
- 风险厌恶: GPT-4 选择风险选项的概率比 GPT-3.5 下降 84%-91%(p < 0.001)
- 赌徒谬误: GPT-4 的 lag-1 自相关系数(-0.3388)绝对值远大于 GPT-3.5(-0.1079)
- 模糊厌恶: GPT-3.5 无显著模糊厌恶(chi-sq = 0.11, p = 0.9464),GPT-4 强烈模糊厌恶(chi-sq = 39.5, p < 0.001)
- 确认偏误: GPT-4 在 Wason 选择任务中 100% 表现出确认偏误
- 禀赋效应: GPT-3.5 无显著禀赋效应,GPT-4 则表现出显著的 WTA-WTP 差异
主要结果四:GPT-3.5 跨版本高度稳定
比较 GPT-3.5 的 Time 1(2023年1月版本)和 Time 2(2023年6月版本):
- 14/18 偏差: 定性结论完全一致
- 3/18 偏差: 差异可归因于操作差异(样本量、prompt 结构、网页 vs API)
- 仅 1/18(预期后悔): 有证据表明模型偏好发生了实质性变化
主要结果五:GPT 的三大决策模式
- 风险与确定性: GPT-4 强烈偏好确定性结果,这解释了其在 prospect theory(全域风险厌恶)、框架效应(收益和损失域均选确定选项)、模糊厌恶(偏好已知概率)中的表现
- 信息显著性: 当问题无可计算公式时(如合取谬误、预期后悔),GPT-4 被显著信息引导决策;当有公式可用时(如基率忽视、可得性启发式),GPT-4 能识别并应用公式
- 概率与统计: GPT-4 在需要计算的概率问题上表现优异(基率忽视零错误),但在不需要即时计算的概率任务上表现出偏差(赌徒谬误、合取谬误)
对 OM 的具体启示
- Newsvendor 问题: GPT 表现出风险厌恶和过度自信,可能导致类似人类的 pull-to-center 效应,现有的行为 newsvendor 理论对 GPT agent 仍然适用
- Wait-or-buy 问题: GPT 不表现双曲贴现,消费者若使用 GPT 建议将做出更理性的跨期选择;但 GPT 对预期后悔敏感,故基于后悔的定价策略仍然有效
- 工作流部署: GPT 在基于公式的客观任务中表现最佳,管理者应优先在此类场景部署
与其他文献的关系
直接相关文献
- Binz_Schulz_2023_CognitivePsychology_GPT3: 开创性地将 GPT-3 作为"被试"进行认知心理学实验,本文直接延伸其方法至 18 种偏差和 OM 情境
- Davis_2018_BiasesIndividualDecisionMaking: 提供了本文 18 种偏差的理论框架和分类(Handbook of Behavioral Operations 章节)
- Hagendorff_2023_HumanLikeIntuition_LLM: 发现 LLM 中出现类人直觉行为和推理偏差,但在 ChatGPT 中消失;本文发现部分偏差在 GPT-4 中反而加深
- Ma_2023_ChatGPT_Irrational: 使用 GPT-3.5 测试框架效应和赌徒谬误,发现 GPT 在损失域风险寻求;本文 Time 1 结果一致但 Time 2 转向全域风险厌恶
- Horton_2023_HomoSilicus_LLM: 提出"Homo Silicus"概念,用 GPT-3 进行行为经济学实验
Behavioral Operations 文献
- Bolton_Katok_2008_Newsvendor_Learning: 人类 newsvendor 表现出赌徒谬误行为
- Long_Nasiry_2015_ProspectTheory_Newsvendor: 用 prospect theory 解释 newsvendor 的 pull-to-center 效应
- Becker-Peth_2013_Buyback_IrrationalNewsvendor: 为非理性但可预测的 newsvendor 设计合同
- Baucells_Ovchinnikov_2017_BehavioralAnomalies_Markdown: 将消费者行为异常纳入 markdown 优化
LLM 决策行为文献
- Kirshner_2024_ArtificialAgents_OM: 研究 GPT agents 在 Management Science Replication Project 中的决策
- Su_2023_GPT4_Newsvendor: 测试 GPT-4 在经典 newsvendor 问题上的能力
- Suri_2024_LLM_CognitiveFlexibility: 测试 GPT-3.5 和 GPT-4 的合取谬误等偏差
- Park_2024_DiversityOfThought_LLM: 发现 GPT-3.5 对某些问题的回答变异极低("correct answer" effect)
方法论参考
- Kahneman_Tversky_1979_ProspectTheory: Prospect theory 原始实验设计
- Tversky_Kahneman_1983_ConjunctionFallacy: Linda 问题原始设计
- Frederick_2005_CognitiveReflectionTest: CRT 原始三题
- Wason_1968_SelectionTask: 四卡片选择任务
- Ellsberg_1961_AmbiguityAversion: Ellsberg 悖论
🔗 链接到这篇笔记
- EvenTov_Lourie_2025_AI_RetailInvestorBehavior
- Faia_Fuster_2022_InformationSelectionBiases
- Frydman_Nave_2017_ExtrapolativeBeliefs_Perceptual_Economic
- Holt_2009_BayesianUpdating
- Ivanov_2009_Hindsight_Foresight_Insight
- Lu_Zhao_2024_MentalModelling_RL_LanguageModels
- Thaler_SupplyMotivatedBeliefs
- The_2024_Fake_News_Effect_Experimentally