Belief Bias Identification

**Unknown (2026), **

摘要

This paper proposes a unified theoretical model to identify and test a comprehensive set of probabilistic updating biases within a single framework. The model achieves separate identification by focusing on the updating of belief distributions, rather than point beliefs alone. Estimating the model in a laboratory experiment reveals significant individual heterogeneity: all tested biases are present and exhibit systematic co-occurrence patterns across individuals, with motivated-belief biases (optimism and pessimism) and sequence-related biases (gambler's and hot-hand fallacy) emerging as key drivers of biased inference. At the population level most biases average out, but base-rate neglect remains a persistent influence. This study contributes to the belief-updating literature by providing a methodological toolkit for researchers examining links between conflicting biases and connections between updating biases and other behavioral phenomena.

Gonzalez-Fernandez (2026) — Belief Bias Identification

一句话总结

本文提出一个基于信念分布（而非点信念）的统一理论框架，在单一实验环境中同时识别和分离多种可能相互混淆的概率更新偏差，发现动机性信念偏差和序列相关偏差是偏差推断的主要驱动力，且偏差间呈现系统性的共现模式。

研究问题

本文要回答什么？ 当人们在接收新信息后更新信念时，不同的更新偏差（如过度推断、基率忽略、确认偏差、乐观/悲观偏差、赌徒谬误/热手效应等）可能在观测上产生相似的行为表现。如何在同一实证框架中将这些相互混淆的偏差分别识别出来？各偏差的相对重要性如何？它们之间是否存在系统性的共现关系？

为什么重要？ 传统文献通常单独研究各种偏差，导致一种偏差的表现可能被错误归因于另一种偏差。例如，一个人对信号"过度反应"可能源于过度推断、乐观偏差、确认偏差或过度精确等不同机制，但这些机制对应截然不同的行为后果和干预策略。如果不同时考虑多种偏差，某些偏差可能只是因为遗漏了竞争性解释而显得重要。

核心贡献

方法论创新：基于信念分布（beta分布）而非传统的点信念来建模信念更新，使得在同一框架内可以分离识别多种冲突的偏差——包括过度/不足推断、基率忽略/过度使用、确认偏差、乐观/悲观（动机性信念）、赌徒谬误/热手效应、以及精度偏差（过度/不足精确）。
实证发现：通过实验室实验揭示（a）总体层面大多数偏差相互抵消，仅基率忽略持续显著；（b）个体层面所有偏差均存在且异质性巨大；（c）偏差间存在系统性共现模式，形成两大聚类。
相对于已有文献：不同于 Benjamin_2019_BeliefUpdating 综述中基于点信念的经典方法，也不同于 Jiao_etal_2020_SocialMedia 基于正态分布的多偏差框架，本文使用beta分布实现了更灵活的偏差分离，并首次在实验中系统检验了偏差的共现结构。

维度1：实验设计分析

实验概况

地点：Maastricht大学行为与实验经济学实验室（BEELab）
被试：88名参与者
任务数量：每人完成30个信念引导任务
平均报酬：15.9欧元
预注册：2023年10月在 AsPredicted 预注册

被试完整实验经历（逐屏还原）

第一步：指导阶段

被试观看一段5分钟的解释视频，学习如何解读和操作信念分布图形界面。
被试回答5道理解测试题，至少答对3题才能参与实验；若有错误，获得第二次机会重新回答所有题目。
被试可以自由测试图形界面软件。

第二步：每个任务的流程（重复30次）

屏幕1 — 罐子选择展示：

屏幕展示一个由99个罐子组成的池（pool），每个罐子含100个球。
罐子1含1个红球和99个蓝球（1%红球），罐子2含2个红球和98个蓝球（2%红球），依此类推，罐子99含99个红球和1个蓝球（99%红球）。
系统从99个罐子中随机选择一个，但不告知被试选中的是哪个罐子。
被试的任务是猜测选中罐子中红球的百分比。

屏幕2 — 第一组信号（先验引导）：

从选中的罐子中有放回地随机抽取一组球，展示给被试。
第一组信号的球数为1个、2个或3个球。
屏幕上直接显示抽出球的颜色（红色或蓝色的球体图示）。

屏幕3 — 先验信念报告（图形界面）：

被试看到一个动态图形界面，初始显示均匀分布（uniform beta distribution）。
界面包含两个滑块：
- 滑块1："你期望选中的罐子有多少百分比的红球？"（控制beta分布的期望值）
- 滑块2："你对这个百分比的不确定程度是多少？"（控制beta分布的标准差，从"更确定"到"更不确定"）
被试通过调节两个滑块选择一个beta分布形状，图形实时更新显示对应的概率密度曲线。
界面提供缩放选项：自动缩放（保持图形可读性）或固定比例尺。
被试被明确指示要通过图形来完成任务，而非仅关注滑块数值。
界面不允许选择双峰分布。

屏幕4 — 第二组信号：

从同一个选中的罐子中有放回地再次抽取一组球。
第二组信号的球数为3个、5个或7个球。
屏幕上直接显示抽出球的颜色。

屏幕5 — 后验信念报告（图形界面）：

界面与屏幕3相同，但初始显示的是被试自己在屏幕3报告的先验分布。
被试再次通过两个滑块调整分布，报告更新后的后验信念分布。

第三步：新任务开始

完成一个任务后，系统从99个罐子中重新（有放回地）选择一个新罐子，重复上述流程。
所有被试面对相同的罐子集和抽球序列，但任务顺序在被试间随机化。

Treatment/Control设计

Dollar Urn处理（Within-subject设计）：

30个任务中的15个任务（随机分布在30个位置中）被指定为"Dollar Urn"任务。
Dollar Urn条件（Treatment）：被试获得的额外支付金额（以美分计）等于选中罐子中红球的（未知）数量。因此被试有金钱激励偏好红球比例更高的罐子。
普通Urn条件（Control）：无此额外支付，被试对状态空间无偏好。
这一设计允许通过对比Dollar Urn与普通Urn下的更新行为来识别动机性信念偏差（乐观/悲观）。

序列变异（Within-subject设计）：

第二组信号的序列结构发生变化：有些序列末尾3个球全为同色（连续成功或连续失败的"streak"），有些则非连续。
通过比较有streak和无streak条件下的推断系数差异，识别序列相关偏差（热手效应 vs 赌徒谬误）。

随机化策略

任务顺序在被试间随机化。
所有被试面对相同的罐子和信号序列集合。
Dollar Urn任务在30个任务位置中随机分配15个。

激励机制

采用二值化评分规则（Binarized Scoring Rule），基于 Schlag_VanDerWeele_2013_ElicitingProbabilities。
期望值激励：使用二次评分规则（Quadratic Scoring Rule），将被试报告的均值与贝叶斯后验的一个随机实现进行比较，通过彩票机制转化为支付。每次报告最高可获25/3美分（总上限10欧元）。
方差激励：基于被试报告的方差与贝叶斯后验的两个随机实现之间的距离。
遵循 Danz_etal_2022_BeliefElicitation 的做法，不向被试披露具体评分规则的数学细节，而是告知他们"为了最大化期望报酬，应如实报告对红球百分比的猜测及其不确定性"。

维度2：理论模型

经典理论基准

贝叶斯更新：先验为Beta(a₀, b₀)分布，观察n次伯努利试验中k次成功后，后验为Beta(a₀+k, b₀+n-k)分布。参数γ=1, δ=1时为标准贝叶斯更新。

行为偏差模型（逐步扩展）

基线模型（Baseline Model）——方程(4)(5)：

扭曲后的后验参数：ã_n = γk + δ(a₀-1) + 1；b̃_n = γ(n-k) + δ(b₀-1) + 1
γ ≠ 1 → 推断偏差（过度推断/不足推断）
δ ≠ 1 → 基率偏差（基率忽略/基率过度使用）

完整模型（Complete Model）——方程(9)(10)(11)：
在基线模型基础上引入：

不对称反应（α ≠ β）：对成功（红球）和失败（蓝球）的反应可以不同。结合偏好，α > 1表示对好消息过度反应（乐观），β > 1表示对坏消息过度反应（悲观）。
确认偏差（ρ < 0）：信号越不confirmatory，反应越强；通过先验期望值与信号均值之间的面积c来衡量。
序列相关偏差：当第二组信号末尾出现streak时，过度反应为热手效应，不足反应为赌徒谬误。通过虚拟变量 I_Seq 交互实现。
精度偏差（ν ≠ 1）：后验方差相对于贝叶斯方差的倍数。ν < 1为过度精确，ν > 1为不足精确。

关键假设

先验信念服从beta分布。
偏差以似然函数和先验的指数扭曲形式建模（"as-if" model）。
偏好以连续递增的效用函数表示，使得"成功"与"好消息"等价。

可检验预测

若仅考虑推断和基率偏差，可能错误地检测到过度推断（因遗漏了其他偏差渠道）。
纳入完整偏差集后，总体层面过度推断应消失。
个体间应存在显著异质性，不同偏差模式应呈现聚类。

维度3：核心发现

总体层面结果（Table 2）

基线模型（仅含推断和基率偏差）：

成功系数γ_s = 37.234（贝叶斯基准为1），p < 0.05 → 显著过度推断
先验系数δ_s = 0.017（贝叶斯基准为1），p < 0.01 → 显著基率忽略（系数远低于1）
失败系数γ_f = 76.199，p < 0.05 → 显著过度推断
先验系数δ_f = -0.0002（贝叶斯基准为1），p < 0.01 → 显著基率忽略

完整模型：

纳入全部偏差后，过度推断证据消失（成功系数43.678, p不显著）
基率忽略持续显著：δ_s = 0.016 (p < 0.01)，δ_f = -0.001 (p < 0.01)
方差方程：贝叶斯方差系数ν = 0.992（不显著偏离1），常数项η = 0.002 (p < 0.05)
总体层面R²极低（0.002-0.004），反映不同被试的偏差方向相互抵消

个体层面结果

偏差检出率（p < 0.05, Figure 4b完整模型）：

热手效应：最常见偏差，约44%被试展现（~39人）
过度推断：约31%被试
基率过度使用（BRO）：约29%被试
基率忽略（BRN）：约29%被试
乐观偏差：约25%被试
悲观偏差：约22%被试
赌徒谬误：约18%被试
过度精确：约15%被试
确认偏差：较少（约8-10%）
不足精确：约5%
无偏差（No Bias）：仅2人（从基线模型的15人大幅下降）

偏差的相对重要性（Effect Size, Figure 5a）：

期望值偏差最大的两个偏差：赌徒谬误（≈0.38距离单位）和乐观偏差（≈0.35距离单位）
方差偏差中热手效应影响最大

模型拟合改善（Table 4）：

总体R²：基线0.002 → 完整0.002（因个体异质性抵消）
个体平均R²：基线Eq.(12)=0.565 → 完整Eq.(14)=0.658；基线Eq.(13)=0.535 → 完整Eq.(15)=0.720
完整模型的AIC/BIC在个体层面均优于基线模型（Table 3）

共现模式（Section 5.3, Figure 7 & 8）

热手效应与赌徒谬误强负相关：φ ≈ -0.36
基率忽略与基率过度使用负相关：φ ≈ -0.24
过度推断与不足推断负相关：φ ≈ -0.21
赌徒谬误与"反信号更新"正相关：φ ≈ 0.36
热手效应与过度精确正相关：φ ≈ 0.17
形成两大网络组件：（1）"谨慎型"——赌徒谬误、反信号更新、基率过度使用；（2）"跳跃型"——热手效应、过度精确、乐观偏差、过度推断

稳健性检验

测量误差注入（SIMEX方法, Appendix D.1）：在方差报告中注入10%-50%额外噪声，主要结论不变，热手效应仍为最常见偏差
多重假设检验校正（Bonferroni校正, Appendix D.2）：阈值从p<0.05调至p<0.0042，所有偏差仍存在，热手效应仍最常见，完整模型仍优于基线模型
Grether式简约模型（Appendix E）：将连续状态空间二值化后的Grether回归结果与经典文献及主模型的基线发现定性一致

维度4：变量概览

观测变量（Outcome Variables）

变量	测量方式
ã_n（后验beta参数a）	被试通过图形界面报告的后验beta分布，映射为beta参数
b̃_n（后验beta参数b）	同上
Var̃_n（后验方差）	由报告的beta分布计算
期望值 E = a/(a+b)	由beta参数计算
标准差	由beta参数计算，通过不确定性滑块控制

核心自变量/Treatment变量

变量	含义
k（成功次数）	第二组信号中红球数量
n-k（失败次数）	第二组信号中蓝球数量
a₀, b₀（先验参数）	被试报告的先验beta分布参数
I_Pref（偏好虚拟变量）	=1 若为Dollar Urn任务
I_Seq_s, I_Seq_f（序列虚拟变量）	=1 若第二组信号末尾3球全为红/蓝（streak）
c（确认度量）	先验期望值与信号均值之间的先验密度面积
Var_n（贝叶斯方差）	贝叶斯后验beta分布的理论方差

控制变量

任务顺序在被试间随机化（隐式控制顺序效应）
标准误在被试层面聚类

维度5：局限性

样本量有限：88名被试（均为大学生样本），限制了外部效度和低频偏差的检测功效。
信念引导工具的约束：不允许报告双峰分布；方差通过连续滑块报告，可能存在测量误差（虽然通过SIMEX进行了稳健性检验）。
"As-if"模型：将偏差建模为似然/先验的指数扭曲，不试图识别产生偏差的深层认知机制。
共现分析的探索性：偏差共现结构分析未预注册，属描述性发现，且部分低频偏差的共现关联应谨慎解读。
实验环境的抽象性：罐子任务为高度抽象的概率推断环境，与现实中的信念更新场景（政治信息、金融决策等）存在差距。
序列相关偏差的检测功效较低：序列偏差仅在存在streak的子样本中可检测，观测数量较少，但仍然获得了显著结果。

维度6：与其他文献的关系

信念更新偏差的经典文献

Edwards_1968_Conservatism — 保守主义/不足推断的早期研究
Tversky_Kahneman_1974_Heuristics — 启发式与偏差的经典框架
Grether_1980_BayesRule — Grether回归的经典范式，本文在Appendix E中复现
Benjamin_2019_BeliefUpdating — 信念更新偏差的综合综述，本文框架针对其指出的点信念局限性

推断与基率偏差

Khaw_etal_2021_IndividualDifferences — 个体异质性在概率感知中的重要性
Augenblick_etal_2025_Overinference — 弱信号过度推断、强信号不足推断
Benjamin_etal_2019_BaseRateNeglect — 基率忽略的理论基础
Bucher_Glimcher_2022_BaseRateNeglect — 基率忽略的动态性

动机性信念与好坏消息不对称

Eil_Rao_2011_GoodNewsBadNews — 好坏消息效应的开创性研究
Zimmermann_2020_MotivatedBeliefs — 动机性信念的动态
Mobius_etal_2022_SelfConfidence — 自信管理中的不对称更新
Heger_Papageorge_2018_OptimismOverconfidence — 乐观与过度自信的关系

确认偏差

Rabin_Schrag_1999_ConfirmationBias — 确认偏差的经典模型
Charness_Dave_2017_ConfirmationBias — 确认偏差与动机性信念
Zhenxun_2024_ConfirmationBias — 确认偏差模型
Aydogan_etal_2025_BayesianDeviations — 对称与不对称贝叶斯偏差测量

序列相关偏差

Rabin_2002_LawSmallNumbers — 小数定律与赌徒谬误
Rabin_Vayanos_2010_GamblerHotHand — 赌徒谬误与热手效应的统一理论
Prat-Carrabin_etal_2024_SequentialEffects — 序列效应的资源理性解释

精度偏差

Moore_etal_2015_Overprecision — 过度精确综述
Augenblick_etal_2025a_Overprecision — 过度精确的理论与证据

信念引导方法

Gonzalez-Fernandez_etal_2025_DirectElicitation — 本文使用的参数化信念分布引导工具
Schlag_VanDerWeele_2013_ElicitingProbabilities — 二值化评分规则
Danz_etal_2022_BeliefElicitation — 不披露评分规则细节的做法
Manski_2004_MeasuringExpectations — 期望测量方法

偏差间关联的相关工作

Stango_Zinman_2023_BehavioralTaxonomy — 消费者决策中的行为偏差分类
Bordalo_etal_2023_MemoryProbabilityBordalo_etal_2025_HowPeopleUseStatistics — 记忆和显著性在偏差产生中的作用
Kahneman_etal_2021_Noise — 多种偏差可能同时存在的干预挑战

维度7：可拓展的研究方向

实验设计改进

增大样本量并纳入非学生被试，提高外部效度和低频偏差的统计功效。
引入真实情境任务（如政治信息评估、投资决策模拟），检验框架在非抽象环境下的适用性。
操纵信号强度和先验强度的更细粒度变异，更精确地分离各偏差通道。
允许被试报告双峰分布，或使用非参数信念引导方法作为对照。

未探索的调节变量

认知能力/认知反思测验（CRT）：偏差的个体异质性是否与认知能力相关？
任务经验/学习效应：30个任务中偏差是否随经验减少？
时间压力：是否放大特定偏差（如序列相关偏差）？
信号呈现方式：逐个呈现 vs 同时呈现球的颜色是否影响序列偏差的强度？
激励强度：更高的支付是否改变Dollar Urn条件下的乐观/悲观偏差？

可推广的领域

金融市场：投资者对盈利/亏损信息的更新是否同时受乐观偏差和热手效应驱动？哪个解释更重要？
政治极化：将框架应用于政治信息处理，分离确认偏差、动机性推理和基率忽略的相对贡献。
医疗决策：医生在诊断中的信念更新是否受特定偏差组合驱动？
去偏差干预（Boosting）：基于共现模式设计针对偏差簇（而非单一偏差）的干预策略。
认知机制探索：结合 Bordalo_etal_2025_HowPeopleUseStatistics 的显著性框架或 Enke_Graeber_2023_CognitiveUncertainty 的认知不确定性框架，探索偏差背后的深层认知过程。

关键结论

使用更丰富的偏差模型会实质性改变对信念更新行为的解读：在简约模型中显著的过度推断，在纳入动机性信念、序列偏差和确认偏差后消失，仅基率忽略在总体层面持续存在。这意味着以往文献中发现的某些偏差可能部分是模型遗漏导致的伪影。
偏差不是独立出现的，而是形成系统性的共现结构：以序列相关偏差（热手效应 vs 赌徒谬误）为枢纽，信念更新偏差分为两大聚类——"跳跃式"（热手效应、过度精确、乐观、过度推断）和"保守式"（赌徒谬误、反信号更新、基率过度使用），这为理解偏差的深层认知来源和设计去偏差干预提供了重要线索。

Belief_2026_Belief_Bias_Identification