An Update on Bayesian Updating

Authors: Charles A. Holt, Angela M. Smith
Year: 2009
Journal: Journal of Economic Behavior & Organization, 69, 125-134
DOI: 10.1016/j.jebo.2007.08.013
JEL: C91, D83

Keywords: Laboratory experiments, Bayes' rule, Probability weighting

一句话总结

通过 BDM 机制激励的"杯-弹珠"贝叶斯更新实验 (手工实验 22 人 + 网络实验 96 人；总观测约 2,395)，作者用对数赔率回归同时估计先验加权参数 $\gamma_1 \approx 0.71$ (显著小于1，先验被低估)与似然加权参数 $\gamma_2 \approx 1.00$ (与1无差异，样本信息被充分利用)，证明 base-rate neglect 是先验与似然被差异化加权的结果，而非单一概率扭曲；同时刻画了显著的个体异质性 ( $\gamma$ 范围 -0.5 到 3.0) 与代表性启发偏差。

研究问题

用激励兼容的 BDM 机制 (而非依赖风险中性的评分规则) 诱导主观概率后，被试在杯-弹珠更新任务中的偏差模式是什么？
这些偏差能否用单参数概率加权函数 $w(p) = p^\gamma / (p^\gamma + (1-p)^\gamma)^{1/\gamma}$ 描述？
先验信息与似然 (样本) 信息是否被以相同程度加权？(差异化加权能否解释经典的 base-rate neglect？)
代表性启发偏差 (representativeness) 在贝叶斯更新中以怎样的可识别形式出现？
极端先验 (Pr(A) = 4/100) 下，概率扭曲模式是否发生质变？
个体之间的更新参数是否存在显著异质性，多少比例的被试接近贝叶斯？

核心贡献

方法论创新 (BDM)：首次将 Becker-DeGroot-Marshak 机制系统应用于贝叶斯更新实验，使如实报告主观概率成为占优策略，无论被试风险偏好如何，克服了 Grether (1992) 等评分规则要求风险中性的局限。
双参数加权模型：提出对数赔率线性回归 $\ln(r/(1-r)) = \tau + \gamma_1 \ln(\pi/(1-\pi)) + \gamma_2 \ln(\ell)$ ，分别识别先验与似然的加权强度，揭示 $\gamma_1 < \gamma_2$ 是 base-rate neglect 的统一表达。
systematic 先验比较：在 Pr(A) = 1/3、1/2、2/3、4/100 四种先验下重复测量，刻画了概率扭曲在中等 vs. 极端先验下的不同表现。
代表性偏差的实证刻画：通过"代表性序列虚拟变量" (LLD 等) 量化代表性启发对报告概率的额外推动，扩展了 Grether 的发现。
个体异质性：在 96 名被试层面分别估计 $\gamma$ ，发现 45% 与贝叶斯无差异、5% 严重过度加权 ( $\gamma>2$ )，提示异质性是建模信念形成时不可忽略的维度。
简洁的实验范式与免费教学工具：手工版本 (杯子+弹珠) 与 Veconlab 网络版本均可被教师/研究者免费使用，推动了贝叶斯更新偏差研究的普及。

维度1：实验设计分析

核心研究问题

被试在观察随机抽样信号后，如何更新其对未知事件的概率判断？其偏差模式是否与概率加权（probability weighting）一致？

概率诱导机制（BDM机制）

采用 Becker-DeGroot-Marshak (1964) 程序诱导真实概率报告，核心设计如下：

被试报告"杯A正在被使用的概率"（以"100中的机会"表述，即0-100的整数）
计算机随机生成一个截断值 N（均匀分布于0-99或0-100）
若 N >= 报告的概率 R，则使用"N彩票"：以 P_N = N/100 的概率获得固定奖金 $V
若 N < R，则使用"杯A彩票"：若杯A确实在用则获得 $V，否则得$0
该机制保证：无论风险偏好如何，如实报告主观概率是占优策略（满足随机占优）

实验1：手工实验（Playing with Dice and Marbles）

被试： 22名弗吉尼亚大学经济学课学生
报酬： $6固定参与费 + 实验收益

杯子设置（基线处理）：

杯A：2颗浅色弹珠(L) + 1颗深色弹珠(D)
杯B：1颗浅色弹珠(L) + 2颗深色弹珠(D)
即杯A中L占2/3，杯B中L占1/3

实验流程：

掷骰子选择杯子（决定先验概率 Pr(A)）
被选杯子的弹珠倒入不透明容器，被试无法辨别来自哪个杯
从容器中有放回抽样，每次抽取后记录L或D，摇晃容器后再抽
每次抽样后被试报告"杯A正在被使用的概率"（0-100）
实验员掷10面骰子两次确定N，用于BDM支付

序列设计（10名被试）：

3个序列，每个序列含3轮无抽样轮 + 1/2/3次抽样轮
序列I：Pr(A) = 1/2；序列II：Pr(A) = 2/3；序列III：Pr(A) = 1/2
半数被试序列II和III顺序对调

扩展处理（12名被试）：

3个序列，仅2轮无抽样轮 + 最多4次抽样
半数被试序列II和III顺序对调

实验2：网络实验（Between-Subjects Design）

被试： 72名（3个处理组各24人）
平台： Veconlab网页程序
设计： 被试间设计，每人在同一先验下做30个决策

处理组：

Pr(A) = 1/3（24人）
Pr(A) = 1/2（24人）
Pr(A) = 2/3（24人）

序列结构： 3个序列各10个决策，每序列抽样次数为 0, 0, 1, 2, 3, 4, 1, 2, 3, 4

杯子设置同手工实验， 但用红蓝球替代浅深色弹珠。

实验3：极端先验处理（Treatment 4）

目的： 检验极低先验下的贝叶斯偏差
设置：

使用100面模拟骰子，杯A的先验 Pr(A) = 4/100
杯A：R, R, R, R, R, R, R, R（全红）
杯B：R, R, R, B, B, B, B, B（3红5蓝混合）
单次R抽样后贝叶斯后验仅为0.1

维度2：理论模型

贝叶斯更新基准

\Pr(A|S) = \frac{\Pr(S|A)\Pr(A)}{\Pr(S|A)\Pr(A) + \Pr(S|B)\Pr(B)}

其中 S 为观察到的抽样序列。

概率加权模型

采用 Wu and Gonzalez (1996) 的单参数概率加权函数：

w(p) = \frac{p^\gamma}{(p^\gamma + (1-p)^\gamma)^{1/\gamma}}

其中 $\gamma$ 为加权参数。当 $\gamma = 1$ 时， $w(p) = p$ （贝叶斯基准）； $\gamma < 1$ 时产生对低概率的过度加权和对高概率的低估。

加权赔率比为：

\frac{w(p)}{w(1-p)} = \left(\frac{p}{1-p}\right)^\gamma

双参数对数线性估计模型（核心公式）

\ln\left(\frac{r}{1-r}\right) = \tau + \gamma_1 \ln\left(\frac{\Pr(A)}{1-\Pr(A)}\right) + \gamma_2 \ln\left(\frac{\Pr(S|A)}{\Pr(S|B)}\right)

其中：

$r$ = 被试报告的概率
$\gamma_1$ = 先验概率的加权参数
$\gamma_2$ = 似然比（样本信息）的加权参数
$\tau$ = 常数项（偏移项）
若 $\gamma_1 = \gamma_2 = 1$ 且 $\tau = 0$ ，则为完美贝叶斯更新

维度3：核心发现

3.1 总体更新行为（手工实验，22名被试，420个观测）

在对称先验（Pr(A) = 1/2）条件下，报告概率总体接近贝叶斯预测
低概率区域上偏： 贝叶斯预测较低时，报告概率偏高
高概率区域下偏： 贝叶斯预测较高时，报告概率偏低
中位数比均值更接近贝叶斯预测（均值受大偏差影响更大）
约80%的观测与贝叶斯预测一致（先验对称时），代表性启发偏差时降至约60%

3.2 代表性偏差（Representativeness Bias）

对称先验（Pr(A) = 2/3）下：
- 单次L抽样：报告0.61（贝叶斯 = 0.67）
- 代表性序列 L,L,D：报告0.66（贝叶斯 = 0.67，接近一致）
- 即3次抽样序列匹配杯A比例时，报告概率被抬高至与单次抽样接近
单次D抽样（先验1/2）： 报告0.42（贝叶斯 = 0.33），明显高于贝叶斯

3.3 强化信号序列效应（Tables 3 & 4）

红色强化序列（先验 -> R -> RR -> RRR -> RRRR）：

先验	R	RR	RRR	RRRR
1/3	.46	.60	.81	.80
1/2	.63	.74	.86	.87
2/3	.68	.79	.84	.93

蓝色强化序列（先验 -> B -> BB -> BBB -> BBBB）：

先验	B	BB	BBB	BBBB
1/3	.30	.24	.20	.09
1/2	.37	.24	.18	.11
2/3	.46	.29	.14	.12

被试确实会根据累积信号更新信念，但更新幅度不足。

3.4 OLS回归结果（Table 7，N = 2395）

模型1（无代表性虚拟变量）：

常数项 $\tau$ = -0.098 (SE = 0.028)
先验赔率对数系数 $\gamma_1$ = 0.713 (SE = 0.024)，显著小于1 -> 先验信息被低估
似然比对数系数 $\gamma_2$ = 1.027 (SE = 0.024)，与1无显著差异 -> 样本信息被充分利用
$R^2$ = 0.504

模型2（含代表性虚拟变量）：

先验赔率系数 $\gamma_1$ = 0.732 (SE = 0.025)
似然比系数 $\gamma_2$ = 0.995 (SE = 0.026)
代表性杯A虚拟变量 = 0.234 (SE = 0.098)，显著为正
代表性杯B虚拟变量 = -0.387 (SE = 0.112)，显著为负
$R^2$ = 0.507

核心发现： $\gamma_1 < 1$ （先验被低估）而 $\gamma_2 \approx 1$ （似然比被充分利用），说明概率加权对先验和样本信息的作用程度不同。

3.5 个体异质性（Fig. 7，96名被试）

个体概率加权参数 $\gamma$ 的范围从 -0.5 到 3.0，异质性极大
45%的被试（43/96）的 $\gamma$ 与1无显著差异（5%水平），即接近贝叶斯行为
约5个被试的 $\gamma > 2$ ，意味着始终过度加权后验概率

3.6 极端先验处理（Pr(A) = 4/100）

平均诱导概率系统性高于贝叶斯预测（除极端值外）
极低先验下，低概率的过度加权现象远比中等先验处理严重

维度6：与其他文献的关系

所属领域

实验经济学 / 行为决策理论 / 贝叶斯更新偏差

关键前驱文献

Kahneman & Tversky (1973): 律师-工程师实验，发现"基率忽视"（base rate bias），被试在中性描述下忽略先验人口比例
Grether (1978, 1980, 1992): 经典"书袋与扑克筹码"实验范式，发现代表性启发偏差，为本文实验设计的直接基础
Hammerton (1973): 医学诊断情境下的概率判断，发现基率被低估（Pr(D|+) 贝叶斯 = 0.5，报告约0.8）
Wu & Gonzalez (1996); Gonzalez & Wu (1999): 概率加权函数的参数化形式

核心创新与贡献

机制设计创新： 首次将BDM诱导机制系统性地用于贝叶斯更新实验，克服了Grether (1992)中评分规则依赖风险中性假设的问题
双参数概率加权模型： 允许先验概率（ $\gamma_1$ ）和似然比（ $\gamma_2$ ）有不同的加权程度，发现两者存在显著差异
丰富的先验变化： 系统比较1/3、1/2、2/3和4/100四种先验，揭示极端先验下偏差模式发生质变
个体异质性刻画： 通过个体层面估计揭示更新行为的巨大个体差异

后续影响

为概率加权理论从风险选择扩展到信念更新领域提供了实证基础
支持了先验信息和样本信息可能被差异化处理的观点
为 Benjamin et al. (2019) 关于概率推理误差的综述提供了重要实验证据
代表性偏差和基率忽视的发现被后续信息级联、金融泡沫等研究广泛引用

与经典文献的对比

维度	Grether (1980, 1992)	Holt & Smith (2009)
诱导机制	评分规则（依赖风险中性）	BDM机制（风险偏好无关）
报告格式	概率	"100中的机会"
先验范围	中等先验	1/3, 1/2, 2/3, 4/100
模型	代表性vs贝叶斯	概率加权函数（双参数）
异质性	未系统刻画	个体层面 $\gamma$ 估计

Tags: #BayesianUpdating #ProbabilityWeighting #BaseRateBias #Representativeness #BDM #LabExperiment #BeliefElicitation #CognitivesBias

维度4：变量概览

因变量

报告概率 r (0-100)：被试报告"杯A正在被使用"的可能性，以"100中的机会"形式提交，作为主观后验估计
对数报告赔率 $\ln(r/(1-r))$ ：用于线性回归形式

自变量 (信号与先验)

贝叶斯后验 $\Pr(A|S)$ ：根据先验 Pr(A) 与样本 S 计算的理性更新基准
对数先验赔率 $\ln(\Pr(A)/(1-\Pr(A)))$ ：取值对应 1/3、1/2、2/3、4/100
对数似然比 $\ln(\Pr(S|A)/\Pr(S|B))$ ：由抽样序列与杯子组成 (2/3 vs. 1/3 比例) 决定
代表性序列虚拟变量：LLD/LDD 等比例匹配杯子的样本是否额外推动报告

估计参数

先验加权 $\gamma_1$ (估计值 0.713-0.732)：刻画对先验信息的低估
似然加权 $\gamma_2$ (估计值 0.995-1.027)：刻画对样本信息的利用
常数 $\tau$ (-0.098)：基线偏移
个体 $\gamma$ ：从 96 名被试单独估计，范围 -0.5 至 3.0

实验设计变量

抽样次数：0/1/2/3/4 次
抽样结果：浅 (L)/深 (D) 或红 (R)/蓝 (B)，有放回
先验处理：基线 1/2、变化 1/3 与 2/3、极端 4/100 (8红/3红5蓝杯)
被试间设计 (实验2)：每个先验下 24 名被试做 30 个决策
被试内设计 (实验1)：序列 I-III 在每名被试内变化先验

激励与支付

每次更新决策的 BDM 彩票：以 $V 为期望奖金的伯努利支付，确保如实报告占优
实验1：$6 固定参与费 + 实验收益
实验2 (Veconlab)：网络平台支付

关键操作化

抽样有放回，避免序贯抽样改变剩余球的分布
摇晃容器后再抽，保证独立性
计算机/骰子双重随机化先验抽签与 BDM 截断值 N

维度5：局限性

环境抽象：杯子-弹珠任务高度抽象，与真实经济决策 (投资、医疗诊断) 的语境差异较大；外推性需谨慎。
未直接区分启发式机制：双参数加权模型刻画了"先验与似然差异化加权"的现象，但未直接区分背后机制是真正的概率扭曲、代表性启发、还是认知能力局限。
样本来自经济学课：被试为弗吉尼亚大学经济学课学生 (实验1) 与网络平台被试，可能比一般人群对概率任务更熟悉，低估了普遍人群的偏差幅度。
激励额度有限：BDM 彩票的奖金可能不足以激励充分思考；高 stakes 是否改变结果未检验。
抽样独立性的认知：被试可能不完全理解"有放回抽样"，使部分偏差源自对抽样过程的误解，而非更新规则本身。
极端先验仅一个处理：4/100 仅作为补充处理，没有系统比较多个极端先验 (如 1/100、10/100、90/100)，无法刻画扭曲的完整非线性形态。
未引入信号自身的概率：实验仅变化先验，未变化样本来自杯A/B 的条件概率 (固定 2/3 vs. 1/3)，无法识别似然加权对信号信息量的灵敏度。
静态偏好假设：BDM 假设被试在 BDM 抽彩前后偏好稳定且理解机制；若被试不理解 BDM，激励兼容性失效。
个体异质性来源未解释：刻画了 $\gamma$ 异质性范围，但未将异质性与认知反应测试 (CRT)、数学/概率素养、教育背景等可观测特征联系。
未涉及动态序贯更新：每次报告独立计算，未直接检验被试是否存在 anchoring 或顺序效应。

维度7：可拓展的研究方向

结构估计认知模型：将双参数加权模型嵌入更细致的认知架构 (如 Augenblick-Lazarus-Thaler 2025 的 over/underinference 框架，与 Augenblick_Lazarus_Thaler_2025_Overinference_Underinference 联系)，识别先验低估的根源。
金融决策应用：将 BDM 范式与真实金融决策结合，检验先验加权 $\gamma_1 < 1$ 是否解释金融市场中的代表性偏差与动量异象，与 Bisiere_2014_RiskAttitude_BeliefsUpdating_Trades 等结合。
激励规模与认知负荷：操纵 stakes 与认知负荷 (与 Hernandez_2013_Disfluency_ConfirmationBias 类似的负荷设计)，检验偏差是否在高 stakes/低负荷下减少。
数学/概率素养异质性：测量被试 CRT、数学素养、贝叶斯素养，识别 $\gamma$ 异质性的可解释来源。
极端先验的非线性扭曲：扩展极端先验范围 (1/1000 到 999/1000) 系统刻画概率加权曲线。
动态贝叶斯学习：扩展到多轮、序贯信号场景，检验 base-rate neglect 是否随经验衰减或被反转，以及 anchoring 效应是否存在。
群体审议下的更新：将 BDM 范式扩展到群体决策、信息级联场景 (与 Anderson_Holt_1997_InformationCascades 联系)，检验先验低估在社会学习中的累积效应。
跨文化比较：在不同教育/文化背景被试中复制 $\gamma_1, \gamma_2$ 估计，检验 base-rate neglect 是否文化普适。
与神经/眼动证据结合：用 fMRI 或眼动追踪检验被试在更新先验 vs. 整合样本时是否激活不同神经回路，对应不同 $\gamma$ 来源。
政策应用：医学诊断与司法：将 BDM 范式应用到医生概率推断 (Hammerton 1973 后续) 与陪审团证据评估，量化先验低估对实际决策错误率的影响。
机器学习辅助下的偏差矫正：检验向被试提供贝叶斯计算结果作为参考是否能矫正 $\gamma_1 < 1$ ；与 Chen_Kirshner_2025_ChatGPT_BiasedDecisions 等 AI 辅助决策研究结合。

关键结论

先验与似然差异化加权：用激励兼容的 BDM 与对数赔率回归同时识别 $\gamma_1 = 0.713$ (显著小于1) 与 $\gamma_2 = 1.027$ (与1无差异)，证明 base-rate neglect 不是统一概率扭曲，而是被试对先验信息显著低估、对样本信息几乎充分利用的差异化加权结果。
代表性启发的可识别效应：在控制先验与似然后，"代表性杯A序列虚拟变量"系数 +0.234 (p<0.05)、"代表性杯B序列虚拟变量"系数 -0.387 (p<0.05)，证明代表性启发独立于贝叶斯结构对报告概率产生方向性推动。
极端先验下偏差被放大：在 Pr(A) = 4/100 处理下，平均报告概率系统性高于贝叶斯预测，对低概率事件的过度加权远比中等先验明显，符合 Wu-Gonzalez 概率加权函数对极端概率扭曲的预测。
信号方向的不对称性：对单次"非典型"信号 (如先验 1/2 下的 D 抽样) 报告 0.42 而贝叶斯为 0.33，过度反应；对累积同向信号 (RRRR) 更新幅度不足，与不充分反应一致。
巨大个体异质性：96 名被试个体 $\gamma$ 范围 -0.5 至 3.0，45% 与贝叶斯无差异、约 5% 严重过度加权 ( $\gamma>2$ )，证明信念形成偏差需以异质性建模。
方法学贡献：BDM + 杯-弹珠范式成为可重复、激励兼容、教学友好的贝叶斯更新研究标准工具，被后续 Benjamin (2019) 等概率推理偏差综述广泛引用。

Holt_2009_BayesianUpdating