Holt_2009_BayesianUpdating

更新于 2026/7/5

An Update on Bayesian Updating

Authors: Charles A. Holt, Angela M. Smith
Year: 2009
Journal: Journal of Economic Behavior & Organization, 69, 125-134
DOI: 10.1016/j.jebo.2007.08.013
JEL: C91, D83

Keywords: Laboratory experiments, Bayes' rule, Probability weighting


一句话总结

通过 BDM 机制激励的"杯-弹珠"贝叶斯更新实验 (手工实验 22 人 + 网络实验 96 人;总观测约 2,395),作者用对数赔率回归同时估计先验加权参数 \gamma_1 \approx 0.71 (显著小于1,先验被低估)似然加权参数 \gamma_2 \approx 1.00 (与1无差异,样本信息被充分利用),证明 base-rate neglect 是先验与似然被差异化加权的结果,而非单一概率扭曲;同时刻画了显著的个体异质性 (\gamma 范围 -0.5 到 3.0) 与代表性启发偏差。

研究问题

  1. 用激励兼容的 BDM 机制 (而非依赖风险中性的评分规则) 诱导主观概率后,被试在杯-弹珠更新任务中的偏差模式是什么?
  2. 这些偏差能否用单参数概率加权函数 w(p) = p^\gamma / (p^\gamma + (1-p)^\gamma)^{1/\gamma} 描述?
  3. 先验信息与似然 (样本) 信息是否被以相同程度加权?(差异化加权能否解释经典的 base-rate neglect?)
  4. 代表性启发偏差 (representativeness) 在贝叶斯更新中以怎样的可识别形式出现?
  5. 极端先验 (Pr(A) = 4/100) 下,概率扭曲模式是否发生质变?
  6. 个体之间的更新参数是否存在显著异质性,多少比例的被试接近贝叶斯?

核心贡献

  1. 方法论创新 (BDM):首次将 Becker-DeGroot-Marshak 机制系统应用于贝叶斯更新实验,使如实报告主观概率成为占优策略,无论被试风险偏好如何,克服了 Grether (1992) 等评分规则要求风险中性的局限。
  2. 双参数加权模型:提出对数赔率线性回归 \ln(r/(1-r)) = \tau + \gamma_1 \ln(\pi/(1-\pi)) + \gamma_2 \ln(\ell),分别识别先验与似然的加权强度,揭示 \gamma_1 < \gamma_2 是 base-rate neglect 的统一表达。
  3. systematic 先验比较:在 Pr(A) = 1/3、1/2、2/3、4/100 四种先验下重复测量,刻画了概率扭曲在中等 vs. 极端先验下的不同表现。
  4. 代表性偏差的实证刻画:通过"代表性序列虚拟变量" (LLD 等) 量化代表性启发对报告概率的额外推动,扩展了 Grether 的发现。
  5. 个体异质性:在 96 名被试层面分别估计 \gamma,发现 45% 与贝叶斯无差异、5% 严重过度加权 (\gamma>2),提示异质性是建模信念形成时不可忽略的维度。
  6. 简洁的实验范式与免费教学工具:手工版本 (杯子+弹珠) 与 Veconlab 网络版本均可被教师/研究者免费使用,推动了贝叶斯更新偏差研究的普及。

维度1:实验设计分析

核心研究问题

被试在观察随机抽样信号后,如何更新其对未知事件的概率判断?其偏差模式是否与概率加权(probability weighting)一致?

概率诱导机制(BDM机制)

采用 Becker-DeGroot-Marshak (1964) 程序诱导真实概率报告,核心设计如下:

  • 被试报告"杯A正在被使用的概率"(以"100中的机会"表述,即0-100的整数)
  • 计算机随机生成一个截断值 N(均匀分布于0-99或0-100)
  • 若 N >= 报告的概率 R,则使用"N彩票":以 P_N = N/100 的概率获得固定奖金 $V
  • 若 N < R,则使用"杯A彩票":若杯A确实在用则获得 $V,否则得$0
  • 该机制保证:无论风险偏好如何,如实报告主观概率是占优策略(满足随机占优)

实验1:手工实验(Playing with Dice and Marbles)

被试: 22名弗吉尼亚大学经济学课学生
报酬: $6固定参与费 + 实验收益

杯子设置(基线处理):

  • 杯A:2颗浅色弹珠(L) + 1颗深色弹珠(D)
  • 杯B:1颗浅色弹珠(L) + 2颗深色弹珠(D)
  • 即杯A中L占2/3,杯B中L占1/3

实验流程:

  1. 掷骰子选择杯子(决定先验概率 Pr(A))
  2. 被选杯子的弹珠倒入不透明容器,被试无法辨别来自哪个杯
  3. 从容器中有放回抽样,每次抽取后记录L或D,摇晃容器后再抽
  4. 每次抽样后被试报告"杯A正在被使用的概率"(0-100)
  5. 实验员掷10面骰子两次确定N,用于BDM支付

序列设计(10名被试):

  • 3个序列,每个序列含3轮无抽样轮 + 1/2/3次抽样轮
  • 序列I:Pr(A) = 1/2;序列II:Pr(A) = 2/3;序列III:Pr(A) = 1/2
  • 半数被试序列II和III顺序对调

扩展处理(12名被试):

  • 3个序列,仅2轮无抽样轮 + 最多4次抽样
  • 半数被试序列II和III顺序对调

实验2:网络实验(Between-Subjects Design)

被试: 72名(3个处理组各24人)
平台: Veconlab网页程序
设计: 被试间设计,每人在同一先验下做30个决策

处理组:

  • Pr(A) = 1/3(24人)
  • Pr(A) = 1/2(24人)
  • Pr(A) = 2/3(24人)

序列结构: 3个序列各10个决策,每序列抽样次数为 0, 0, 1, 2, 3, 4, 1, 2, 3, 4

杯子设置同手工实验, 但用红蓝球替代浅深色弹珠。

实验3:极端先验处理(Treatment 4)

目的: 检验极低先验下的贝叶斯偏差
设置:

  • 使用100面模拟骰子,杯A的先验 Pr(A) = 4/100
  • 杯A:R, R, R, R, R, R, R, R(全红)
  • 杯B:R, R, R, B, B, B, B, B(3红5蓝混合)
  • 单次R抽样后贝叶斯后验仅为0.1

维度2:理论模型

贝叶斯更新基准

\Pr(A|S) = \frac{\Pr(S|A)\Pr(A)}{\Pr(S|A)\Pr(A) + \Pr(S|B)\Pr(B)}

其中 S 为观察到的抽样序列。

概率加权模型

采用 Wu and Gonzalez (1996) 的单参数概率加权函数:

w(p) = \frac{p^\gamma}{(p^\gamma + (1-p)^\gamma)^{1/\gamma}}

其中 \gamma 为加权参数。当 \gamma = 1 时,w(p) = p(贝叶斯基准);\gamma < 1 时产生对低概率的过度加权和对高概率的低估。

加权赔率比为:

\frac{w(p)}{w(1-p)} = \left(\frac{p}{1-p}\right)^\gamma

双参数对数线性估计模型(核心公式)

\ln\left(\frac{r}{1-r}\right) = \tau + \gamma_1 \ln\left(\frac{\Pr(A)}{1-\Pr(A)}\right) + \gamma_2 \ln\left(\frac{\Pr(S|A)}{\Pr(S|B)}\right)

其中:

  • r = 被试报告的概率
  • \gamma_1 = 先验概率的加权参数
  • \gamma_2 = 似然比(样本信息)的加权参数
  • \tau = 常数项(偏移项)
  • \gamma_1 = \gamma_2 = 1\tau = 0,则为完美贝叶斯更新

维度3:核心发现

3.1 总体更新行为(手工实验,22名被试,420个观测)

  • 在对称先验(Pr(A) = 1/2)条件下,报告概率总体接近贝叶斯预测
  • 低概率区域上偏: 贝叶斯预测较低时,报告概率偏高
  • 高概率区域下偏: 贝叶斯预测较高时,报告概率偏低
  • 中位数比均值更接近贝叶斯预测(均值受大偏差影响更大)
  • 约80%的观测与贝叶斯预测一致(先验对称时),代表性启发偏差时降至约60%

3.2 代表性偏差(Representativeness Bias)

  • 对称先验(Pr(A) = 2/3)下:
    • 单次L抽样:报告0.61(贝叶斯 = 0.67)
    • 代表性序列 L,L,D:报告0.66(贝叶斯 = 0.67,接近一致)
    • 即3次抽样序列匹配杯A比例时,报告概率被抬高至与单次抽样接近
  • 单次D抽样(先验1/2): 报告0.42(贝叶斯 = 0.33),明显高于贝叶斯

3.3 强化信号序列效应(Tables 3 & 4)

红色强化序列(先验 -> R -> RR -> RRR -> RRRR):

先验 R RR RRR RRRR
1/3 .46 .60 .81 .80
1/2 .63 .74 .86 .87
2/3 .68 .79 .84 .93

蓝色强化序列(先验 -> B -> BB -> BBB -> BBBB):

先验 B BB BBB BBBB
1/3 .30 .24 .20 .09
1/2 .37 .24 .18 .11
2/3 .46 .29 .14 .12

被试确实会根据累积信号更新信念,但更新幅度不足。

3.4 OLS回归结果(Table 7,N = 2395)

模型1(无代表性虚拟变量):

  • 常数项 \tau = -0.098 (SE = 0.028)
  • 先验赔率对数系数 \gamma_1 = 0.713 (SE = 0.024),显著小于1 -> 先验信息被低估
  • 似然比对数系数 \gamma_2 = 1.027 (SE = 0.024),与1无显著差异 -> 样本信息被充分利用
  • R^2 = 0.504

模型2(含代表性虚拟变量):

  • 先验赔率系数 \gamma_1 = 0.732 (SE = 0.025)
  • 似然比系数 \gamma_2 = 0.995 (SE = 0.026)
  • 代表性杯A虚拟变量 = 0.234 (SE = 0.098),显著为正
  • 代表性杯B虚拟变量 = -0.387 (SE = 0.112),显著为负
  • R^2 = 0.507

核心发现: \gamma_1 < 1(先验被低估)而 \gamma_2 \approx 1(似然比被充分利用),说明概率加权对先验和样本信息的作用程度不同。

3.5 个体异质性(Fig. 7,96名被试)

  • 个体概率加权参数 \gamma 的范围从 -0.5 到 3.0,异质性极大
  • 45%的被试(43/96)的 \gamma 与1无显著差异(5%水平),即接近贝叶斯行为
  • 约5个被试的 \gamma > 2,意味着始终过度加权后验概率

3.6 极端先验处理(Pr(A) = 4/100)

  • 平均诱导概率系统性高于贝叶斯预测(除极端值外)
  • 极低先验下,低概率的过度加权现象远比中等先验处理严重

维度6:与其他文献的关系

所属领域

实验经济学 / 行为决策理论 / 贝叶斯更新偏差

关键前驱文献

  • Kahneman & Tversky (1973): 律师-工程师实验,发现"基率忽视"(base rate bias),被试在中性描述下忽略先验人口比例
  • Grether (1978, 1980, 1992): 经典"书袋与扑克筹码"实验范式,发现代表性启发偏差,为本文实验设计的直接基础
  • Hammerton (1973): 医学诊断情境下的概率判断,发现基率被低估(Pr(D|+) 贝叶斯 = 0.5,报告约0.8)
  • Wu & Gonzalez (1996); Gonzalez & Wu (1999): 概率加权函数的参数化形式

核心创新与贡献

  1. 机制设计创新: 首次将BDM诱导机制系统性地用于贝叶斯更新实验,克服了Grether (1992)中评分规则依赖风险中性假设的问题
  2. 双参数概率加权模型: 允许先验概率(\gamma_1)和似然比(\gamma_2)有不同的加权程度,发现两者存在显著差异
  3. 丰富的先验变化: 系统比较1/3、1/2、2/3和4/100四种先验,揭示极端先验下偏差模式发生质变
  4. 个体异质性刻画: 通过个体层面估计揭示更新行为的巨大个体差异

后续影响

  • 为概率加权理论从风险选择扩展到信念更新领域提供了实证基础
  • 支持了先验信息和样本信息可能被差异化处理的观点
  • 为 Benjamin et al. (2019) 关于概率推理误差的综述提供了重要实验证据
  • 代表性偏差和基率忽视的发现被后续信息级联、金融泡沫等研究广泛引用

与经典文献的对比

维度 Grether (1980, 1992) Holt & Smith (2009)
诱导机制 评分规则(依赖风险中性) BDM机制(风险偏好无关)
报告格式 概率 "100中的机会"
先验范围 中等先验 1/3, 1/2, 2/3, 4/100
模型 代表性vs贝叶斯 概率加权函数(双参数)
异质性 未系统刻画 个体层面 \gamma 估计

Tags: #BayesianUpdating #ProbabilityWeighting #BaseRateBias #Representativeness #BDM #LabExperiment #BeliefElicitation #CognitivesBias

维度4:变量概览

因变量

  • 报告概率 r (0-100):被试报告"杯A正在被使用"的可能性,以"100中的机会"形式提交,作为主观后验估计
  • 对数报告赔率 \ln(r/(1-r)):用于线性回归形式

自变量 (信号与先验)

  • 贝叶斯后验 \Pr(A|S):根据先验 Pr(A) 与样本 S 计算的理性更新基准
  • 对数先验赔率 \ln(\Pr(A)/(1-\Pr(A))):取值对应 1/3、1/2、2/3、4/100
  • 对数似然比 \ln(\Pr(S|A)/\Pr(S|B)):由抽样序列与杯子组成 (2/3 vs. 1/3 比例) 决定
  • 代表性序列虚拟变量:LLD/LDD 等比例匹配杯子的样本是否额外推动报告

估计参数

  • 先验加权 \gamma_1 (估计值 0.713-0.732):刻画对先验信息的低估
  • 似然加权 \gamma_2 (估计值 0.995-1.027):刻画对样本信息的利用
  • 常数 \tau (-0.098):基线偏移
  • 个体 \gamma:从 96 名被试单独估计,范围 -0.5 至 3.0

实验设计变量

  • 抽样次数:0/1/2/3/4 次
  • 抽样结果:浅 (L)/深 (D) 或红 (R)/蓝 (B),有放回
  • 先验处理:基线 1/2、变化 1/3 与 2/3、极端 4/100 (8红/3红5蓝杯)
  • 被试间设计 (实验2):每个先验下 24 名被试做 30 个决策
  • 被试内设计 (实验1):序列 I-III 在每名被试内变化先验

激励与支付

  • 每次更新决策的 BDM 彩票:以 $V 为期望奖金的伯努利支付,确保如实报告占优
  • 实验1:$6 固定参与费 + 实验收益
  • 实验2 (Veconlab):网络平台支付

关键操作化

  • 抽样有放回,避免序贯抽样改变剩余球的分布
  • 摇晃容器后再抽,保证独立性
  • 计算机/骰子双重随机化先验抽签与 BDM 截断值 N

维度5:局限性

  1. 环境抽象:杯子-弹珠任务高度抽象,与真实经济决策 (投资、医疗诊断) 的语境差异较大;外推性需谨慎。
  2. 未直接区分启发式机制:双参数加权模型刻画了"先验与似然差异化加权"的现象,但未直接区分背后机制是真正的概率扭曲、代表性启发、还是认知能力局限。
  3. 样本来自经济学课:被试为弗吉尼亚大学经济学课学生 (实验1) 与网络平台被试,可能比一般人群对概率任务更熟悉,低估了普遍人群的偏差幅度。
  4. 激励额度有限:BDM 彩票的奖金可能不足以激励充分思考;高 stakes 是否改变结果未检验。
  5. 抽样独立性的认知:被试可能不完全理解"有放回抽样",使部分偏差源自对抽样过程的误解,而非更新规则本身。
  6. 极端先验仅一个处理:4/100 仅作为补充处理,没有系统比较多个极端先验 (如 1/100、10/100、90/100),无法刻画扭曲的完整非线性形态。
  7. 未引入信号自身的概率:实验仅变化先验,未变化样本来自杯A/B 的条件概率 (固定 2/3 vs. 1/3),无法识别似然加权对信号信息量的灵敏度。
  8. 静态偏好假设:BDM 假设被试在 BDM 抽彩前后偏好稳定且理解机制;若被试不理解 BDM,激励兼容性失效。
  9. 个体异质性来源未解释:刻画了 \gamma 异质性范围,但未将异质性与认知反应测试 (CRT)、数学/概率素养、教育背景等可观测特征联系。
  10. 未涉及动态序贯更新:每次报告独立计算,未直接检验被试是否存在 anchoring 或顺序效应。

维度7:可拓展的研究方向

  1. 结构估计认知模型:将双参数加权模型嵌入更细致的认知架构 (如 Augenblick-Lazarus-Thaler 2025 的 over/underinference 框架,与 Augenblick_Lazarus_Thaler_2025_Overinference_Underinference 联系),识别先验低估的根源。
  2. 金融决策应用:将 BDM 范式与真实金融决策结合,检验先验加权 \gamma_1 < 1 是否解释金融市场中的代表性偏差与动量异象,与 Bisiere_2014_RiskAttitude_BeliefsUpdating_Trades 等结合。
  3. 激励规模与认知负荷:操纵 stakes 与认知负荷 (与 Hernandez_2013_Disfluency_ConfirmationBias 类似的负荷设计),检验偏差是否在高 stakes/低负荷下减少。
  4. 数学/概率素养异质性:测量被试 CRT、数学素养、贝叶斯素养,识别 \gamma 异质性的可解释来源。
  5. 极端先验的非线性扭曲:扩展极端先验范围 (1/1000 到 999/1000) 系统刻画概率加权曲线。
  6. 动态贝叶斯学习:扩展到多轮、序贯信号场景,检验 base-rate neglect 是否随经验衰减或被反转,以及 anchoring 效应是否存在。
  7. 群体审议下的更新:将 BDM 范式扩展到群体决策、信息级联场景 (与 Anderson_Holt_1997_InformationCascades 联系),检验先验低估在社会学习中的累积效应。
  8. 跨文化比较:在不同教育/文化背景被试中复制 \gamma_1, \gamma_2 估计,检验 base-rate neglect 是否文化普适。
  9. 与神经/眼动证据结合:用 fMRI 或眼动追踪检验被试在更新先验 vs. 整合样本时是否激活不同神经回路,对应不同 \gamma 来源。
  10. 政策应用:医学诊断与司法:将 BDM 范式应用到医生概率推断 (Hammerton 1973 后续) 与陪审团证据评估,量化先验低估对实际决策错误率的影响。
  11. 机器学习辅助下的偏差矫正:检验向被试提供贝叶斯计算结果作为参考是否能矫正 \gamma_1 < 1;与 Chen_Kirshner_2025_ChatGPT_BiasedDecisions 等 AI 辅助决策研究结合。

关键结论

  1. 先验与似然差异化加权:用激励兼容的 BDM 与对数赔率回归同时识别 \gamma_1 = 0.713 (显著小于1) 与 \gamma_2 = 1.027 (与1无差异),证明 base-rate neglect 不是统一概率扭曲,而是被试对先验信息显著低估、对样本信息几乎充分利用的差异化加权结果。
  2. 代表性启发的可识别效应:在控制先验与似然后,"代表性杯A序列虚拟变量"系数 +0.234 (p<0.05)、"代表性杯B序列虚拟变量"系数 -0.387 (p<0.05),证明代表性启发独立于贝叶斯结构对报告概率产生方向性推动。
  3. 极端先验下偏差被放大:在 Pr(A) = 4/100 处理下,平均报告概率系统性高于贝叶斯预测,对低概率事件的过度加权远比中等先验明显,符合 Wu-Gonzalez 概率加权函数对极端概率扭曲的预测。
  4. 信号方向的不对称性:对单次"非典型"信号 (如先验 1/2 下的 D 抽样) 报告 0.42 而贝叶斯为 0.33,过度反应;对累积同向信号 (RRRR) 更新幅度不足,与不充分反应一致。
  5. 巨大个体异质性:96 名被试个体 \gamma 范围 -0.5 至 3.0,45% 与贝叶斯无差异、约 5% 严重过度加权 (\gamma>2),证明信念形成偏差需以异质性建模。
  6. 方法学贡献:BDM + 杯-弹珠范式成为可重复、激励兼容、教学友好的贝叶斯更新研究标准工具,被后续 Benjamin (2019) 等概率推理偏差综述广泛引用。