Contingent Belief Updating

作者： Chiara Aina, Andrea Amelio, Katharina Bruett
期刊： Working Paper (Harvard University / University of Bonn / Vrije Universiteit Amsterdam)
年份： 2023
预注册： https://aspredicted.org/D2G_X81

一句话总结

通过 balls-and-urns 范式的三组被试间设计（Conditional / All-Contingency / One-Contingency），本文将 contingent belief updating 分解为 hypothetical thinking 和 contrast reasoning 两个子机制，发现假设性思维显著加重信念偏差（约+50%），而对比推理仅在对称信号生成过程下能补偿这一负面效应——结论与多数经济学专家的事前预测相反。

研究问题

contingent thinking（在不确定性解决之前为所有可能信号实现进行信念更新，对应"strategy method"）相较于 conditional updating（仅基于已实现信号更新，对应"direct method"）是否会产生不同的信念偏差？如果是，差异源于何种机制？本文将 contingent thinking 分解为两个组件——hypothetical thinking（对未观察信号进行更新所需的心理模拟）和 contrast reasoning（在更新中同时比较多个 contingency 的纠错效应）——并通过实验设计独立识别二者的因果效应。

核心贡献

机制分解的实验设计创新：三组处理（Conditional/One-Contingency/All-Contingency）首次将 hypothetical thinking 与 contrast reasoning 在 strategy method 中的效应干净地识别出来；One-Contingency 是关键的"剥离"处理，去除 contrast 仅保留 hypothetical
逆专家直觉的实证发现：38 位经济学专家中 61% 预测两种引出方法无差异，37% 预测 contingent 更新降低偏差，仅 1 人预测偏差增加。实际数据显示偏差增加约 1/3，方向与多数专家相反
信号生成过程对称性的关键调节：揭示 contrast reasoning 的补偿效应仅在对称 SGP 下生效（信号强度互为倒数提供额外纠错信息），在非对称 SGP 下完全失效——这解释了为何 All-Contingency 的总效应介于其他两组之间
信号强度的交互效应：hypothetical thinking 的偏差效应随信号强度增强而放大（p=0.039 交互项），但 contrast reasoning 不随之放大
方法论启示：对大量使用 strategy method 引出信念的实验文献提出系统性警示——所引出信念可能不能直接代表被试在实际信息到达后的信念

维度1：实验设计分析

核心研究问题

contingent thinking（在不确定性解决之前推演所有可能情形）是否以及如何影响信念更新的准确性？具体将contingent thinking分解为两个子机制：(1) hypothetical thinking（对尚未观察到的信息进行更新）和 (2) contrast reasoning（在更新过程中同时比较多个contingency），分别检验其对偏差的贡献。

实验任务详细流程

本文采用经典的"balls-and-urns"贝叶斯更新范式，在线实验，三组between-subjects处理。

基本任务结构（所有处理共享）

被试池： Prolific平台，限定英国地区参与者，N = 525（完成实验），最终分析样本 N = 450（每组150人），通过控制题筛选（总通过率86%）。

任务流程（每轮）：

呈现信号生成过程（SGP）： 屏幕展示两个袋子（Bag A 和 Bag B），各含80或60个球（蓝色和橙色）。两袋被选中的概率相等，Pr(A) = Pr(B) = 50%。被试看到每个袋子中蓝球和橙球的具体数量。
- 注：故意不用100个球的袋子，以避免"蓝球数 = 概率"的启发式捷径。
随机选袋： 被试点击"Select the Bag"按钮，系统通过虚拟抛硬币动画随机选定一个袋子（被试不知道选中了哪个）。
抽球： 被试点击"Draw the Ball"，系统从选中袋子中随机抽取一个球。根据处理组的不同，球的颜色此时可能可见或不可见。
信念引出： 被试通过滑块报告每个袋子被选中的概率（以百分比），Bag A 和 Bag B 的概率自动互补（加总100%）。
重复10轮： 每轮面对一个不同的SGP（共10个SGP），前9轮的SGP顺序随机，最后一轮固定为SGP 70-30。

三组处理的关键差异

处理1：Conditional（条件信念更新 = 基线）

对应信念引出的直接法（direct method）。
抽球后，被试直接观察到球的颜色（通过彩色动画呈现）。
然后被试基于观察到的已实现信号，报告对两个袋子的后验概率判断。
特征：无hypothetical thinking，无contrast reasoning。

处理2：All-Contingency（全contingency信念更新）

对应信念引出的策略法（strategy method）。
抽球后，球显示为无色+问号，被试不知道颜色。
被试在同一屏幕上同时为两种假设情形报告后验概率：
- Case Orange：假设电脑抽到橙色球，Bag A/B各被选中的概率是多少？
- Case Blue：假设电脑抽到蓝色球，Bag A/B各被选中的概率是多少？
- 两个案例在屏幕上的左右位置随机。
报告完成后，被试才看到实际抽到的球的颜色。
特征：既有hypothetical thinking，又有contrast reasoning。

处理3：One-Contingency（单contingency信念更新）

抽球后，球显示为无色+问号，被试不知道颜色。
被试只为一个随机选定的假设情形报告后验概率（50%概率被指定为Case Orange或Case Blue）。
报告完成后，被试才看到实际抽到的球的颜色。
特征：有hypothetical thinking，但无contrast reasoning。
设计目的：通过与Conditional对比，纯粹识别hypothetical thinking的效应；通过与All-Contingency对比，识别contrast reasoning的增量效应。

10个信号生成过程（SGP）的设计

每个SGP以"Pr(blue|A) - Pr(blue|B)"命名，具体参数如下：

SGP名称	Pr(blue\|A)	Pr(blue\|B)	对称性	是否镜像	总球数
5-95	5%	95%	对称	否	60
15-85	15%	85%	对称	是	80
85-15	85%	15%	对称	是	60
70-30	70%	30%	对称	否	80
5-75	5%	75%	非对称	否	60
30-95	30%	95%	非对称	是	80
95-30	95%	30%	非对称	是	80
45-85	45%	85%	非对称	否	60
50-25	50%	25%	非对称	否	80
60-5	60%	5%	非对称	否	80

信号强度定义： 对信号 s，信号强度 lambda_s = Pr(s|A) / Pr(s|B)。lambda > 1 时信号利好Bag A，lambda < 1 时利好Bag B。

对称 vs. 非对称SGP：

对称SGP：从Bag A抽到蓝球的概率 = 从Bag B抽到橙球的概率，因此蓝球和橙球的信号强度互为倒数，只看一个袋子即可判断。
非对称SGP：两信号的诊断性不同，需要同时考虑两个袋子的球色分布。

镜像SGP： 15-85与85-15、30-95与95-30为镜像对，用于检验within-consistency（同一信号下跨轮次的报告稳定性）和between-consistency（跨信号实现的贝叶斯一致性）。

激励机制

完成费 GBP 2，表现奖金最高 GBP 2，平均总支付 GBP 3.37。
采用二值化评分规则（Hossain and Okui, 2013）：报告的后验越接近真实状态，获得奖金的概率越高。
10轮中随机选1轮用于真实支付。
跨处理的激励一致性处理：
- Conditional：基于观察到的已实现信号的猜测决定支付。
- All-Contingency：两个contingency的猜测都报告，但只有与实际信号匹配的那个用于决定奖金。
- One-Contingency：若随机指定的假设情形恰好与实际信号匹配，则按该猜测决定支付；若不匹配，被试获得固定 GBP 1（约为奖金的一半）。
- 这一设计保证各处理中每个contingency发生的概率非零，从而维持激励兼容性。

其他测量

认知不确定性（Cognitive Uncertainty）： 最后一轮（固定为SGP 70-30）后，按Enke and Graeber (2023)方法引出。
认知反思测试（CRT）： 修改版（3题），避免被试此前已接触过经典版本。高CRT（0-1错）占56%，低CRT（2-3错）占44%。
Berlin Numeracy Task
人口统计问卷
主观挑战感评分： 7点量表，评价猜测任务的难度。
平均完成时间约24分钟。

专家调查

在数据收集前，通过Social Science Prediction Platform向经济学领域学术专家征集预测。
38份回复：37%预测contingent更新会降低偏差，61%预测无显著差异，仅1人预测偏差会增加。
实际结果与专家预测方向相反。

维度3：核心发现

主要结果变量

Bias（绝对偏差）： 报告的后验与贝叶斯后验之间的绝对距离。
Underinference（推断不足）： 使用Grether (1980)模型，log(Pr(A|s)/Pr(B|s)) = alpha * log(lambda_s) + beta。alpha < 1 表示推断不足（信号强度被低估），alpha = 1 为贝叶斯基准，alpha > 1 为过度推断。

五大核心发现

Finding 1：Contingent更新比Conditional更新偏差更大

Conditional基线偏差为7.2个百分点。
All-Contingency偏差增加2.4个百分点（增幅约1/3），p = 0.006。
推断不足方面：Conditional的alpha = 0.76，All-Contingency的alpha = 0.70，差异方向一致但不显著(p = 0.243)。

Finding 2：偏差增加的驱动力是hypothetical thinking

One-Contingency比Conditional偏差增加4个百分点（增幅超50%），p < 0.001。
All-Contingency介于Conditional和One-Contingency之间，与One-Contingency无显著差异(p = 0.118)。
推断不足方面：One-Contingency的alpha = 0.63，比Conditional低12.9个百分点，p = 0.021。
因此，contingent thinking导致的偏差增加完全可归因于hypothetical thinking。

Finding 3：Contrast reasoning的补偿效应取决于SGP对称性

对称SGP： One-Contingency比Conditional偏差增加4.5个百分点(p < 0.001)，但All-Contingency与Conditional无显著差异(p = 0.354)。即contrast reasoning完全抵消了hypothetical thinking的负面效应。
非对称SGP： One-Contingency和All-Contingency偏差均显著高于Conditional（分别+3.3和+3.6个百分点，p < 0.001），两者无显著差异(p = 0.727)。即contrast reasoning对非对称SGP完全无效。
结论：主效应（Finding 1）主要由非对称SGP驱动（10个SGP中有6个是非对称的）。

Finding 4：Hypothetical thinking的偏差效应随信号强度增强而增大

总体上更强信号 -> 更大偏差(p = 0.011)。
One-Contingency中此效应显著强于Conditional (p = 0.039)，表明信号强度是hypothetical thinking的重要驱动因素。
Contrast reasoning无此交互效应(p = 0.741)。

Finding 5：Hypothetical thinking导致信念更新在任务内和跨contingency均更不一致

Within-consistency： 镜像SGP下，One-Contingency的后验差异（同一信号的跨轮报告差）比Conditional增加6.6个百分点(p = 0.004)；All-Contingency无显著增加(p = 0.477)。
Between-consistency（贝叶斯不一致）： 两个信号实现的后验均高于或低于50%的极端违反。Conditional中6%，All-Contingency中8%，One-Contingency中14%。One-Contingency显著高于Conditional (p = 0.021)。

其他发现

CRT效应： 高CRT被试整体偏差更低(p < 0.001)，推断不足更少(p = 0.004)，但CRT不调节hypothetical thinking或contrast reasoning的处理效应(p = 0.165 / p = 0.282)。
认知不确定性： 在汇总样本中，认知不确定性增加与偏差增加相关(p = 0.002)，但各处理间认知不确定性无显著差异。
反应时间： All-Contingency每轮平均46秒，比Conditional（27秒）多50%以上(p < 0.001)，反映contrast reasoning的额外计算负担。One-Contingency（31秒）与Conditional无显著差异(p = 0.110)。
主观难度： One-Contingency的主观挑战感显著高于Conditional (p = 0.002)，尽管反应时间未显著增加。All-Contingency的挑战感不高于One-Contingency。
无学习效应： 处理效应不随轮次减弱，甚至在One-Contingency中随轮次略微增强(p = 0.017)。

维度2：理论模型

概念界定

Contingent belief updating（权变信念更新）： 在不确定性解决之前，为所有可能的信号实现评估更新后的信念。对应策略法（strategy method）。
Conditional belief updating（条件信念更新）： 观察到已实现的信息后，仅为该信息更新信念。对应直接法（direct method）。
区别于反事实思维（counterfactual thinking）：反事实关注已发生事件的替代版本，contingent关注尚未发生的未来事件。

两个子机制

Hypothetical thinking（假设性思维）： 在信号未被观察的情况下，对假设的信号实现进行概率更新。心理学上属于"非感官输入直接触发的心理表征"（mental imagery），模拟一个前瞻性情景需要付出额外心理努力。
Contrast reasoning（对比推理）： 同时考虑并比较多个contingency的信念更新结果。对称SGP下，对比两个contingency可利用互为倒数的信号强度关系，提供额外的纠错信息。

后验-赔率模型

采用Grether (1980)模型：
$ $\frac{\Pr(A|s)}{\Pr(B|s)} = \left[\frac{\Pr(s|A)}{\Pr(s|B)}\right]^\alpha = \lambda_s^\alpha$ $

alpha = 1：贝叶斯基准
alpha < 1：推断不足（underinference），被试低估信号的诊断性
alpha > 1：过度推断（overinference）

回归形式（Equation 1）：log(Pr(A|s)/Pr(B|s)) = alpha * log(lambda_s) + beta

Conditional中对称SGP的alpha = 0.86，与Benjamin (2019)元分析结果完全一致。

维度5：局限性

理论贡献

首次实验分解contingent thinking的子机制： 通过三组处理的精巧设计，将hypothetical thinking和contrast reasoning的效应干净地识别出来。
挑战了专家直觉： 多数专家预测contingent更新不会增加偏差或会降低偏差，实际结果相反。
揭示信念引出方法论的重要性： 策略法（strategy method）与直接法（direct method）在信念引出上产生系统性差异，这对采用策略法的大量实验文献具有方法论启示。

与相关文献的关系

补充了contingent thinking文献（Li 2017; Martinez-Marquina et al. 2019; Esponda & Vespa 2014, 2023）：聚焦信念更新而非行动选择，且不要求被试规范性地进行contingent reasoning。
扩展了信念偏差文献（Benjamin 2019; Augenblick et al. 2021）：引入contingent thinking作为偏差的新来源。
贡献于信念引出方法论文献：首次系统比较策略法与直接法在信念引出中的差异。

局限与未来方向

抽象实验环境： balls-and-urns范式虽有良好的文献基准，但可能放大了假设性情景的想象难度。在被试更熟悉的具体情境中，效应可能不同。
非对称SGP下contrast reasoning无效的机制有待深究： 论文记录了这一异质性但未提供完整的理论解释。
未来方向：
- 在更具体、被试更熟悉的情境中探索contingent thinking的效应。
- 通过nudging或训练促进contrast reasoning，可能提升contingent更新的准确性。
- Ashraf et al. (2022)的证据表明前瞻性情景想象能力可训练，这为改善contingent thinking提供了可能。

维度4：变量概览

观测变量（Outcome Variables）

Bias（绝对偏差）：报告后验与贝叶斯后验之间的绝对距离（百分点单位）
Underinference（推断不足）：Grether (1980) 模型的 α 系数（log posterior-odds 对 log signal strength 的回归斜率），α<1 表示推断不足
反应时间：每轮做出报告所需的秒数（认知负担的代理）
主观挑战感：7 点量表
认知不确定性（Cognitive Uncertainty）：仅在最后一轮（SGP 70-30）后引出，按 Enke_Graeber_2023_CognitiveUncertainty 方法
Within-consistency：镜像 SGP 下同一信号的跨轮报告差异
Between-consistency：两个信号实现的后验是否同时高于或低于 50%（贝叶斯不一致的极端违反）

核心自变量 / Treatment 变量

处理组（被试间）：Conditional / All-Contingency / One-Contingency（每组 N=150）
信号强度 λ_s = Pr(s|A)/Pr(s|B)（被试内）：通过 10 个 SGP 变化
SGP 对称性：对称（4个）vs. 非对称（6个）—— 二元和连续测量
镜像 SGP 配对：用于 within-consistency 检验（15-85↔85-15、30-95↔95-30）

控制变量与个体特征

CRT（认知反思测试）：3 题修改版（避免被试已接触过经典版本）
Berlin Numeracy Task：数值素养
人口统计：性别、年龄、教育水平
预注册筛选：仅纳入通过控制题的被试（86%通过率）

异质性 / 调节变量

CRT × Treatment：高 CRT 整体偏差更低，但不调节处理效应（p=0.165, p=0.282）
认知不确定性 × Treatment：CU 与偏差正相关，但各处理无显著差异
Symmetry × Treatment：差分中差分识别 contrast reasoning 的对称性依赖
Signal strength × Treatment：识别 hypothetical thinking 在强信号下的放大

其他设计要素

激励机制：二值化评分规则（Hossain & Okui, 2013），10 轮中随机抽 1 轮支付，跨处理设计保证激励兼容性
专家预测调查：通过 Social Science Prediction Platform 收集 38 份事前预测

维度5：局限性

局限

抽象 balls-and-urns 范式：虽有良好文献基准，但可能放大了"想象未观察信号"的难度。被试更熟悉的具体决策情境（如医疗、投资）下效应大小可能不同
非对称 SGP 下 contrast reasoning 失效的机制不清：作者记录了显著异质性但未提供完整理论解释（互为倒数的信号强度何以是关键？）
样本是 Prolific 英国成人：教育背景偏低（36% 高中及以下），高 CRT 占 56%，跨样本（如学生、专业投资者、政策制定者）的外部效度未验证
效应不随经验消退：One-Contingency 中偏差随轮次增强（p=0.017），与"学习收敛于贝叶斯"的标准预测相反，但作者未深究是否反映 hypothetical 心理负担的累积
信号空间二元：仅蓝/橙两种信号，未涉及多元信号或连续信号的 contingent 更新
未引出过程数据：缺乏被试在做 contingent 报告时的中间思考过程（如 think-aloud 或注视点追踪），机制证据主要来自处理对比

维度6：与其他文献的关系

Contingent thinking 文献

聚焦行动选择：Esponda & Vespa (2014, 2023)、Martinez-Marquina et al. (2019)、Li (2017) 研究 contingent reasoning 在投票、拍卖、市场参与中的效应
本文贡献增量：聚焦信念引出而非行动，且不要求被试规范性地做 contingent reasoning（仅引出他们的 contingent 信念报告）

信念偏差与信念引出方法论

Benjamin_2019_BaseRateNeglect_Foundations 与 Benjamin_2019_ErrorsProbabilisticReasoning_Handbook：贝叶斯偏差的元分析与综述。本文 Conditional 对称 SGP 下 α=0.86 与 Benjamin (2019) 元分析高度一致 → 验证 baseline 可比
Augenblick_Lazarus_Thaler_2025_Overinference_Underinference：信号强度对 over/underinference 的影响。本文记录 underinference 为 α=0.76（Conditional），并将信号强度与 contingent thinking 的交互纳入分析
Enke_Graeber_2023_CognitiveUncertainty：认知不确定性测量。本文采用其方法引出 CU 并发现与偏差正相关
Danz, Vesterlund & Wilson (2022)：策略法激励兼容性的 caveats。本文设计的"未匹配 contingency 给固定支付"参考此类讨论

与本 vault 内信念形成主题的连接

Enke_Zimmermann_2019_CorrelationNeglect_BeliefFormation、Enke_Schwerter_2020_AssociativeMemory_BeliefFormation：信念形成中的认知偏差的其他来源
Drerup_Enke_2017_SubjectiveDataPrecision：信念精度的主观感知
Enke_2020_WYSIATI_CorrelationNeglect：注意力机制与信念

心理学基础

Hypothetical thinking：心理意象（mental imagery）文献，模拟未发生情景的认知成本
Counterfactual vs. contingent：作者明确区分——counterfactual 关注已发生事件的替代版本，contingent 关注未发生的未来事件
Ashraf et al. (2022)：前瞻性情景想象能力可训练 → 为改善 contingent thinking 提供方向

后续研究启示

任何使用 strategy method 引出信念的实验应当报告（或增设）direct method 对照组以校准方法效应
在政策评估、医疗决策辅助等需要被试预测多种未来情景下信念的应用中，引出方法的选择会显著影响所测信念

维度7：可拓展的研究方向

具体情境复制：在医疗诊断（医生预测不同检验结果下的诊断信念）、金融决策（投资者预测不同市场状态下的资产判断）等被试更熟悉的领域复制实验，检验 hypothetical thinking 偏差的边界
debiasing 干预设计：通过教学（强调对称信号下 contrast 的纠错作用）、UI 设计（同时呈现两个 contingency 的可视化贝叶斯计算）、训练（基于 Ashraf 等的可训练性证据）测试 contingent updating 的偏差是否可被消除
多元/连续信号空间：拓展到 3 个及以上信号实现，研究 contrast reasoning 是否随 contingency 数量提升或衰减
过程数据采集：think-aloud、眼动追踪、鼠标轨迹分析，揭示 hypothetical 报告时被试的中间思考结构
与 Bao_2024_ReadingMarket_ExpectationCoordination_TheoryOfMind 类对接：在多人市场环境中，如果交易者必须为他人在不同信号下的反应进行 contingent 推理，hypothetical thinking 偏差是否会放大并产生市场层面后果
结构估计：将 hypothetical 与 contrast 的偏差成本嵌入选择模型，估计被试对未来情景模拟的"心理成本"参数，连接到 Bellemare_2023_StructuralModels_ExperimentalData 类的结构方法
跨文化 / 跨年龄：青少年、老年人、跨文化样本中 contingent thinking 能力差异的检验

关键结论

Contingent updating 系统性增加偏差：相对 conditional updating，contingent 引出的后验偏差增加约 1/3（+2.4 个百分点），且这一增加完全可归因于 hypothetical thinking（One-Contingency 比 Conditional 偏差高 4 个百分点，p<0.001）
Contrast reasoning 的补偿效应有强烈的信号结构依赖：仅在对称 SGP 下完全抵消 hypothetical thinking 的负面效应，在非对称 SGP 下完全无效。这意味着实际应用中 contingent thinking 的纯效应取决于决策环境的信号对称性
方法论警示：strategy method 与 direct method 在信念引出中产生系统性差异，且差异方向逆于多数经济学家的事前预测。这对采用 strategy method 的实验文献的解释有直接含义——所引出信念不能简单等同于被试在实际信号到达后会持有的信念

Aina_ContingentBeliefUpdating

Contingent Belief Updating

一句话总结

研究问题

核心贡献

维度1：实验设计分析

核心研究问题

实验任务详细流程

基本任务结构（所有处理共享）

三组处理的关键差异

10个信号生成过程（SGP）的设计

激励机制

其他测量

专家调查

维度3：核心发现

主要结果变量

五大核心发现

其他发现

维度2：理论模型

概念界定

两个子机制

后验-赔率模型

维度5：局限性

理论贡献

与相关文献的关系

局限与未来方向

维度4：变量概览

观测变量（Outcome Variables）

核心自变量 / Treatment 变量

控制变量与个体特征

异质性 / 调节变量

其他设计要素

维度5：局限性

局限

维度6：与其他文献的关系

Contingent thinking 文献

信念偏差与信念引出方法论

与本 vault 内信念形成主题的连接

心理学基础

后续研究启示

维度7：可拓展的研究方向

关键结论

🔗 链接到这篇笔记