GonzalezFernandez_2026_BeliefBiasIdentification

一句话总结

通过引导被试报告信念分布（beta分布）而非点信念，本文构建了一个能在同一实验、同一被试内同时识别多种信念偏差（overinference、base-rate neglect、motivated beliefs、confirmation bias、hot-hand/gambler's fallacy、precision biases）的统一结构估计框架，并发现传统简约模型中的overinference在控制其他偏差后大部分被吸收，而base-rate neglect是唯一在总体层面稳健存在的偏差；个体层面所有偏差均存在且呈现可识别的聚类模式。

研究问题

方法论问题：信念引导文献长期以来依赖点信念（point beliefs），导致对信念偏差的识别存在严重的遗漏变量问题——能否通过引导信念分布（包含期望和不确定性两个维度）来分离识别多种偏差？
实证问题：在同一统一框架下，多种已知的信念更新偏差（base-rate neglect、overinference、good news/bad news asymmetry、confirmation bias、hot-hand/gambler's fallacy、precision biases）的相对普遍性、相对效应量和共现结构如何？
聚合问题：为什么不同研究在总体层面发现的偏差方向不一致？个体异质性如何在聚合时相互抵消，从而掩盖个体层面的真实偏差结构？
稳健性问题：当控制其他偏差渠道时，先前文献中报告的"overinference"是否仍然稳健存在，还是部分由其他偏差伪装？

核心贡献

方法论贡献：提出一个基于beta分布参数化信念的结构识别策略，利用beta分布的两个参数（期望与精度）作为额外识别变异，使得多种偏差可在单一估计方程中被同时识别。该方法配合 dollar urn vs. neutral urn 设计（识别motivated beliefs）和streak vs. non-streak序列设计（识别sequence-related biases），在同一被试同一实验内分离多种偏差源。
实证贡献：在88名被试、30个任务的实验数据中，系统记录了8类偏差的频率、效应量和共现结构。发现：(1) base-rate neglect是唯一在总体层面稳健的偏差；(2) hot-hand fallacy是个体层面最普遍的偏差（约44%被试显著）；(3) 简约模型中的overinference在complete model中显著缩小，提示部分overinference是遗漏偏差的伪像。
理论贡献：识别出两个偏差聚类——"jumping-to-conclusions"组（overprecision + overinference + optimism + hot-hand）和"prior-based"组（gambler's fallacy + against signal + base-rate overuse）；hot-hand与gambler's fallacy强烈互斥（ϕ≈-0.36），表明它们可能源自相反的认知机制。
政策与方法论启示：解释了为何不同研究关于overinference vs. underinference、optimism vs. pessimism的总体发现相互矛盾——是个体层面相反方向偏差在聚合时抵消的结果，呼吁未来文献将估计转向个体层面。

维度1：实验设计分析

实验设计

实验在Maastricht University的BEELab进行，共招募88名被试，每人完成30个信念引导任务。实验于2023年10月预注册。被试平均报酬15.9欧元。

单个任务的完整流程（重复30次）：

罐子选择阶段：屏幕展示一个由99个罐子组成的池（pool）。每个罐子含100个球，Urn 1含1个红球99个蓝球，Urn 2含2个红球98个蓝球，以此类推直到Urn 99含99个红球1个蓝球。系统从99个罐子中随机选择一个，但不告知被试选中了哪个。被试的任务是猜测选中罐子中红球的百分比。
第一轮信号观察：被试观察从选中罐子中有放回抽取的第一组球。第一组球的数量为1个、2个或3个（across tasks变化）。屏幕上直接显示抽出的球的颜色（红色或蓝色）。
先验信念分布报告（Prior elicitation）：观察第一组球后，被试通过一个动态图形界面报告自己的信念分布。界面展示一个beta分布图形，配有两个滑块：
- 滑块1："What percentage of RED balls do you expect the selected urn to have?"——控制beta分布的期望值
- 滑块2："What is your uncertainty level about the percentage you have just chosen?"——控制beta分布的标准差
被试通过调整这两个滑块来选择一个特定的beta分布。默认起始分布为均匀分布（uniform）。界面图形会动态更新，纵轴自动缩放以保持信息量（被试也可切换为固定缩放）。在正式开始前，被试观看了一段5分钟的教学视频，解释如何解读和操作该图形界面。被试还需通过至少3/5道理解题才能参与实验（未通过者有第二次机会答对全部题目）。
第二轮信号观察：先验报告完成后，屏幕展示从同一选中罐子有放回抽取的第二组球。第二组球的数量为3个、5个或7个（across tasks变化）。球的颜色序列直接显示在屏幕上。
后验信念分布报告（Posterior elicitation）：被试再次使用同一界面报告更新后的信念分布。此时默认起始分布为被试自己刚才报告的先验分布。
进入下一任务：完成一个任务后，系统有放回地从99个罐子中重新选择一个新罐子，重复上述流程。所有被试面对相同的罐子集和抽球序列，但任务呈现顺序在被试间随机化。

Dollar Urn设计（识别motivated beliefs）：30个任务中的15个（随机分散在不同位置）为"dollar urn"任务。在这些任务中，被试额外获得一笔与选中罐子红球数量（未知）成正比的报酬（以美分计）。因此被试在这些任务中有偏好更高红球比例的经济激励。剩余15个为中性任务（neutral urn），无此额外报酬。通过比较dollar urn和neutral urn中的信念更新参数（α vs. β），可以区分motivated belief偏差（乐观/悲观）和纯认知推断偏差。

序列设计（识别sequence-related biases）：在第二轮信号中，部分任务的球序列在末尾包含连续同色球（streak），例如末尾连续3个红球或3个蓝球。通过比较含streak和不含streak任务中的推断系数，可以区分hot-hand fallacy（streak后过度推断）和gambler's fallacy（streak后反向推断）。

激励机制：所有信念报告均通过binarized scoring rule（BSR）激励。具体做法参照Schlag and Van der Weele (2013)的方法，激励信念分布的不同矩。同时参照Danz et al. (2022)的做法，不向被试披露具体的评分规则公式，而是告知被试：为最大化期望报酬，应始终如实报告对红球百分比的猜测及不确定性程度。实验结束后，随机抽取一个任务用于支付。

参数变化（across 30 tasks）：第一轮信号数量∈{1, 2, 3}，第二轮信号数量∈{3, 5, 7}；红蓝球比例变化覆盖不同的真实概率水平；序列中是否含streak以及streak方向（全红/全蓝）均有变化。

理论模型

贝叶斯基准：假设agent观察n个独立同分布的Bernoulli试验信号。先验信念为beta分布 π(p|a₀, b₀)，由于beta分布是二项分布的共轭先验，贝叶斯后验也是beta分布 π(p|aₙ, bₙ)，其中 aₙ = k + a₀, bₙ = (n-k) + b₀（k为成功次数）。

基线模型（Baseline）——两个偏差：引入对似然函数和先验的指数扭曲：

扭曲后似然 L̃ = L^γ，γ>1为overinference，γ∈[0,1)为underinference，γ<0为against signal
扭曲后先验 π̃ = π^δ，δ>1为base-rate overuse，δ<1为base-rate neglect
后验参数：ã_n = γk + δ(a₀-1) + 1, b̃_n = γ(n-k) + δ(b₀-1) + 1

完整模型（Complete）——扩展至多种偏差：

Good/bad news不对称与motivated beliefs：将γ拆分为α（对成功/好消息的反应）和β（对失败/坏消息的反应）。α>1且β<1表示乐观偏差，反之为悲观偏差。α>β为good news effect，α<β为bad news effect。通过dollar urn（I_Pref=1）与neutral urn的交互项 α_Pref, β_Pref 来识别。
Confirmation bias：定义确认度 c 为先验期望值E(π(p))与信号均值k/n之间、先验密度函数下方的面积。ρ<0表示confirmation bias（信号越确认先验，越被放大），ρ>0表示disconfirmation bias。
Sequence-related biases：通过信号序列末尾是否含streak（I_Seq）与推断系数的交互项 α_Seq, β_Seq 来识别。α₀+α_Seq>1 或 β₀+β_Seq>1为hot-hand fallacy；<0为gambler's fallacy。
Precision biases：后验方差 Ṽar_n = ν × Var_n，ν<1为overprecision，ν>1为underprecision。

估计方程（Complete model）：

ã_n - 1 = (α₀ + α_Pref·I_Pref + α_Seq·I_Seq_s)k + ρ_s·c + δ_s(a₀-1) + ε_a
b̃_n - 1 = (β₀ + β_Pref·I_Pref + β_Seq·I_Seq_f)(n-k) + ρ_f·c + δ_f(b₀-1) + ε_b
Ṽar_n = η + ν × Var_n + ε_v

在总体层面和个体层面分别估计，标准误在被试层面聚类。

核心发现

总体层面（Population-level）：

Baseline模型：overinference（γ_s=37.23**, γ_f=76.20**，均显著大于贝叶斯基准）和base-rate neglect（δ_s=0.017***, δ_f=-0.0002***，均显著小于1）两种偏差显著存在。
Complete模型：纳入全部偏差后，overinference不再显著（被其他偏差渠道吸收），但base-rate neglect仍然显著且稳健。这说明简约模型中发现的overinference部分是遗漏偏差的伪像。
总体层面R²极低（0.002-0.004），因为不同个体的偏差方向相反、在总体水平相互抵消。

个体层面（Individual-level）：

所有测试的偏差类型在数据中均存在，没有任何一种偏差在纳入完整模型后完全消失。
Hot-hand fallacy是最普遍的偏差：约44%的被试在5%水平显著表现出hot-hand fallacy（Figure 4b），远超其他偏差类型。
**Overinference（约31%）和base-rate distortions（BRO约29%, BRN约27%）**也较常见。
Confirmation bias和underprecision相对罕见。
Baseline模型中17%的被试无法归类（No Bias），Complete模型将这一比例降至仅2人。

偏差的相对重要性（Bias-specific effects）：

期望值偏离方面：gambler's fallacy（≈0.38）和optimism（≈0.35）产生最大偏离，即当这些偏差出现时对后验期望值的扭曲最大。
方差偏离方面：hot-hand fallacy对后验方差的影响最突出。
综合考虑频率和效应量：motivated beliefs（optimism, pessimism）和sequence-related biases（hot-hand, gambler's fallacy）是biased inference的主要驱动力。

偏差的共现模式（Co-occurrence）：

Hot-hand和gambler's fallacy强烈负相关（ϕ≈-0.36），几乎互斥：Pr(HotHand=1|Gambler=1)≈0.11 vs. Pr(HotHand=1|Gambler=0)≈0.54。
形成两个聚类：(1) "jumping-to-conclusions"组——overprecision、overinference、optimism与hot-hand正相关；(2) "prior-based"组——gambler's fallacy与against signal、base-rate overuse正相关。
对立偏差（如BRN与BRO、overinference与underinference）在个体内趋于互斥。

与其他文献的关系

本文提出了一个统一框架来分离识别多种信念更新偏差，核心创新在于使用信念分布（beta分布的两个参数）而非点信念，从而获得更丰富的识别变异。

与 Benjamin_2019_ErrorsProbabilisticReasoning_Handbook 的关系：Benjamin (2019) 综述了概率推理中的各种偏差，但指出传统框架通常逐一研究偏差。本文正是回应这一局限，构建了同时容纳多种偏差的结构模型。
与 Augenblick_Lazarus_Thaler_2025_Overinference_Underinference 的关系：Augenblick et al. (2025) 研究overinference和underinference，但在二元状态框架下。本文发现，简约模型中的overinference在纳入更多偏差后消失，说明部分overinference可能是遗漏变量偏误。
与 Coutts_2019_TestingModels_BeliefBias 和 Coutts_2019_GoodNewsBadNews_BeliefUpdating 的关系：Coutts也研究多种信念偏差模型的区分，但使用点信念。本文通过分布信念提供了更精确的分离识别。
与 Eil_Rao_2011_GoodNewsBadNews_AsymmetricProcessing 和 Zimmermann_2020_DynamicsOfMotivatedBeliefs 的关系：这些文章研究好/坏消息的不对称处理和motivated beliefs的动态。本文的dollar urn设计提供了在同一被试内、同一实验中分离motivated和unmotivated偏差的方法。
与 Enke_Graeber_2023_CognitiveUncertainty 的关系：Enke and Graeber提出cognitive uncertainty概念。本文的连续状态空间设定可被解读为agent对自身信念的不确定性，与cognitive uncertainty框架相容。
与 Benjamin_BaseRateNeglect_Foundations 的关系：Benjamin et al.聚焦base-rate neglect。本文发现base-rate neglect是唯一在总体层面稳健存在的偏差，即使控制了所有其他偏差渠道。
与 Palminteri_2022_ConfirmationBias_ReinforcementLearning 的关系：Palminteri研究强化学习中的confirmation bias。本文发现confirmation bias在信念更新实验中相对罕见，可能与实验设计（无先前行动承诺）有关。
与 Danz_Vesterlund_2022_BeliefElicitation_BIC 和 Harrison_2017_ScoringRules_SubjectiveProbability 的关系：本文采用BSR激励机制引导信念分布，并参照Danz et al.的做法不披露具体评分规则。信念引导工具来自Gonzalez-Fernandez et al. (2025)的参数化beta分布引导方法。
与 Jiao_2020_PayoffBased_BeliefDistortion 的关系：Jiao et al. (2020) 也使用信念分布来研究多种偏差，但依赖正态分布假设且涵盖的偏差集合较窄。本文的beta分布框架更适合概率推理场景。
与 Benabou_2015_EconomicsMotivatedBeliefs 和 Brunnermeier_2007_OptimalBeliefs_SkewedReturns 的关系：这些理论文章讨论motivated beliefs的经济学基础。本文的实证发现——motivated beliefs是biased inference的主要驱动力之一——为这些理论提供了实验支持。

维度2：理论模型

详见上文"维度1：实验设计分析 — 理论模型"小节。核心是基于 beta 分布共轭先验的贝叶斯基准之上，通过对似然和先验的指数扭曲（α, β, δ）以及 confirmation 度量（ρ）、precision 系数（ν）、dollar urn 与 streak 交互项（α_Pref, β_Pref, α_Seq, β_Seq）共同构成一个统一的可估计结构方程。

维度3：核心发现

详见上文"维度1：实验设计分析 — 核心发现"小节。三大核心发现：(1) overinference 在简约模型中显著但在 complete model 中被吸收；(2) base-rate neglect 是唯一总体稳健的偏差；(3) 个体层面所有偏差均存在，hot-hand fallacy 最普遍（≈44%），偏差呈现"jumping-to-conclusions"与"prior-based"两个聚类。

维度4：变量概览

外生操纵变量：

第一轮信号数量 n₁ ∈ {1, 2, 3}
第二轮信号数量 n₂ ∈ {3, 5, 7}
选中罐子的真实红球比例 p（由99罐池随机抽取）
I_Pref ∈ {0, 1}：是否为dollar urn（提供与红球比例成正比的额外报酬）
I_Seq_s, I_Seq_f ∈ {0, 1}：第二轮信号末尾是否含成功/失败方向的streak

被试报告的内生变量：

先验分布参数 (a₀, b₀)：通过两滑块（期望 + 不确定性）报告的 beta 分布
后验分布参数 (ãₙ, b̃ₙ)：观察第二轮信号后的 beta 分布
后验方差 Ṽarₙ

结构估计参数：

α₀, β₀：对成功/失败信号的基础推断系数（贝叶斯基准 = 1）
α_Pref, β_Pref：dollar urn 下的偏移（识别 motivated beliefs / optimism / pessimism）
α_Seq, β_Seq：streak 下的偏移（识别 hot-hand vs. gambler's fallacy）
δ_s, δ_f：先验权重（识别 base-rate neglect/overuse）
ρ_s, ρ_f：confirmation 系数（ρ<0 = confirmation bias）
ν：方差系数（ν<1 = overprecision）

控制变量与样本特征：

被试 N=88，Maastricht University BEELab，2023年10月预注册
平均报酬 15.9 欧元
标准误在被试层面聚类
30个任务呈现顺序在被试间随机化（控制顺序效应）

维度5：局限性

样本量与统计功效：88名被试，每人30个任务，对个体级精细估计仍较小；尤其在罕见偏差（如 confirmation bias、underprecision）的检测上功效有限。
学生样本与单一文化背景：Maastricht University 的被试主要为大学生，外部效度对一般人群和真实经济决策的推广性受限。
beta分布的参数化假设：信念被强制表达为 beta 分布，限制了多峰、偏态等复杂信念形态的表达；对于不熟悉概率推理的被试，两滑块界面可能引入测量误差。
激励规模相对较小：dollar urn 中的额外报酬以美分计，可能不足以触发强 motivated beliefs；现实中如金融决策的赌注更大，偏差结构可能不同。
静态信念更新：被试只观察两轮信号即报告先验/后验，未涉及动态多期信念演化和长期记忆效应（如 Zimmermann_2020_DynamicsOfMotivatedBeliefs 研究的延迟更新）。
偏差聚类的因果机制未识别：发现的"jumping-to-conclusions"和"prior-based"两聚类是相关性结果，未能识别这些偏差是否源自共同的潜在认知特质（如认知反思能力、风险偏好）。
Dollar urn 设计的内部有效性：虽然区分了 motivated 和 neutral 任务，但 dollar urn 中的报酬本身可能改变注意力分配或风险态度，使 motivated beliefs 与其他混淆机制难以完全分离。
未控制学习效应：30个任务的顺序虽随机化，但被试在实验过程中可能学习贝叶斯更新或对界面更熟练，影响后期任务的偏差估计。

维度6：与其他文献的关系

详见上文"维度1：实验设计分析 — 与其他文献的关系"小节。本文与多篇核心文献的双链已在该小节给出。

维度7：可拓展的研究方向

多期动态信念更新：将本文的两轮信号设计扩展为多轮信号序列，识别 belief martingale violations、attention/forgetting 效应，以及偏差结构在时间上的稳定性。
大规模人群异质性研究：在更大、更代表性的样本（如全国调查、CrowdSource平台）中复制实验，识别偏差结构与人口学特征（年龄、教育、金融素养、认知反思测试 CRT）的关联。
偏差结构与真实经济决策的预测力：将个体级偏差估计与同被试的金融决策（投资组合、保险购买、消费贷款）数据合并，检验哪类偏差最能预测真实经济损失。
偏差的可塑性与干预：设计教育/反馈干预（如告知贝叶斯基准、提供历史业绩反馈），检验各类偏差对干预的可塑性差异。
神经经济学整合：结合 fMRI/EEG，检验"jumping-to-conclusions"与"prior-based"两聚类是否对应不同的脑区激活模式（如DLPFC vs. ventral striatum）。
跨文化比较：在不同文化背景（如东亚 vs. 西欧 vs. 北美）下复制实验，检验 motivated beliefs、hot-hand fallacy 的发生率是否存在文化差异。
信念分布引导工具的标准化：将本文使用的 beta 分布参数化引导工具开发为开源软件包，推广至其他领域（金融预测、医疗决策、气候信念）。
理论模型的微观基础：探索 jumping-to-conclusions 聚类与 prior-based 聚类是否对应不同的注意力模型（如 sparsity-based attention vs. anchoring）或认知能力差异。
政策应用：基于偏差类型对个体进行分类，设计个性化的金融建议或信息披露政策（如对 hot-hand 偏差强者强调长期均值回归、对 base-rate neglect 强者强调基准率）。

关键结论

简约模型高估了 overinference：当只引入 overinference 和 base-rate neglect 两个偏差时，overinference 系数显著（γ_s=37.23, γ_f=76.20）；但纳入 motivated beliefs、sequence-related biases、confirmation bias、precision biases 后，overinference 不再显著——说明大量先前文献报告的"overinference"实际上是其他偏差的混淆效应。
Base-rate neglect 是稳健存在的：在 baseline 和 complete 模型中均显著（δ ≈ 0），即使控制所有其他偏差渠道。
个体异质性掩盖总体真相：总体层面 R² 极低（0.002-0.004），原因是不同被试的偏差方向相反（如 optimism vs. pessimism、hot-hand vs. gambler）在聚合时抵消；个体层面所有偏差均存在，无被试是"无偏的贝叶斯人"。
Hot-hand fallacy 是最普遍的个体偏差：约44%被试显著表现出 hot-hand，远超其他偏差；motivated beliefs（optimism, pessimism）和 sequence-related biases 是 biased inference 的主要驱动力。
偏差呈现两种相对的认知风格：(1)"jumping-to-conclusions"组——overprecision、overinference、optimism、hot-hand 正相关；(2)"prior-based"组——gambler's fallacy、against signal、base-rate overuse 正相关；hot-hand 与 gambler's fallacy 几乎互斥（ϕ≈-0.36），暗示个体倾向于一种或另一种认知风格但不会同时具备。
信念分布引导优于点信念：通过引导被试报告完整的 beta 分布，本文获得了识别多种偏差所需的额外变异，证明这一方法是未来信念偏差研究的有力工具。