GonzalezFernandez_2026_BeliefBiasIdentification

更新于 2026/7/5

一句话总结

通过引导被试报告信念分布(beta分布)而非点信念,本文构建了一个能在同一实验、同一被试内同时识别多种信念偏差(overinference、base-rate neglect、motivated beliefs、confirmation bias、hot-hand/gambler's fallacy、precision biases)的统一结构估计框架,并发现传统简约模型中的overinference在控制其他偏差后大部分被吸收,而base-rate neglect是唯一在总体层面稳健存在的偏差;个体层面所有偏差均存在且呈现可识别的聚类模式。

研究问题

  1. 方法论问题:信念引导文献长期以来依赖点信念(point beliefs),导致对信念偏差的识别存在严重的遗漏变量问题——能否通过引导信念分布(包含期望和不确定性两个维度)来分离识别多种偏差?
  2. 实证问题:在同一统一框架下,多种已知的信念更新偏差(base-rate neglect、overinference、good news/bad news asymmetry、confirmation bias、hot-hand/gambler's fallacy、precision biases)的相对普遍性、相对效应量和共现结构如何?
  3. 聚合问题:为什么不同研究在总体层面发现的偏差方向不一致?个体异质性如何在聚合时相互抵消,从而掩盖个体层面的真实偏差结构?
  4. 稳健性问题:当控制其他偏差渠道时,先前文献中报告的"overinference"是否仍然稳健存在,还是部分由其他偏差伪装?

核心贡献

  1. 方法论贡献:提出一个基于beta分布参数化信念的结构识别策略,利用beta分布的两个参数(期望与精度)作为额外识别变异,使得多种偏差可在单一估计方程中被同时识别。该方法配合 dollar urn vs. neutral urn 设计(识别motivated beliefs)和streak vs. non-streak序列设计(识别sequence-related biases),在同一被试同一实验内分离多种偏差源。
  2. 实证贡献:在88名被试、30个任务的实验数据中,系统记录了8类偏差的频率、效应量和共现结构。发现:(1) base-rate neglect是唯一在总体层面稳健的偏差;(2) hot-hand fallacy是个体层面最普遍的偏差(约44%被试显著);(3) 简约模型中的overinference在complete model中显著缩小,提示部分overinference是遗漏偏差的伪像。
  3. 理论贡献:识别出两个偏差聚类——"jumping-to-conclusions"组(overprecision + overinference + optimism + hot-hand)和"prior-based"组(gambler's fallacy + against signal + base-rate overuse);hot-hand与gambler's fallacy强烈互斥(ϕ≈-0.36),表明它们可能源自相反的认知机制。
  4. 政策与方法论启示:解释了为何不同研究关于overinference vs. underinference、optimism vs. pessimism的总体发现相互矛盾——是个体层面相反方向偏差在聚合时抵消的结果,呼吁未来文献将估计转向个体层面。

维度1:实验设计分析

实验设计

实验在Maastricht University的BEELab进行,共招募88名被试,每人完成30个信念引导任务。实验于2023年10月预注册。被试平均报酬15.9欧元。

单个任务的完整流程(重复30次):

  1. 罐子选择阶段:屏幕展示一个由99个罐子组成的池(pool)。每个罐子含100个球,Urn 1含1个红球99个蓝球,Urn 2含2个红球98个蓝球,以此类推直到Urn 99含99个红球1个蓝球。系统从99个罐子中随机选择一个,但不告知被试选中了哪个。被试的任务是猜测选中罐子中红球的百分比。

  2. 第一轮信号观察:被试观察从选中罐子中有放回抽取的第一组球。第一组球的数量为1个、2个或3个(across tasks变化)。屏幕上直接显示抽出的球的颜色(红色或蓝色)。

  3. 先验信念分布报告(Prior elicitation):观察第一组球后,被试通过一个动态图形界面报告自己的信念分布。界面展示一个beta分布图形,配有两个滑块:

    • 滑块1:"What percentage of RED balls do you expect the selected urn to have?"——控制beta分布的期望值
    • 滑块2:"What is your uncertainty level about the percentage you have just chosen?"——控制beta分布的标准差

    被试通过调整这两个滑块来选择一个特定的beta分布。默认起始分布为均匀分布(uniform)。界面图形会动态更新,纵轴自动缩放以保持信息量(被试也可切换为固定缩放)。在正式开始前,被试观看了一段5分钟的教学视频,解释如何解读和操作该图形界面。被试还需通过至少3/5道理解题才能参与实验(未通过者有第二次机会答对全部题目)。

  4. 第二轮信号观察:先验报告完成后,屏幕展示从同一选中罐子有放回抽取的第二组球。第二组球的数量为3个、5个或7个(across tasks变化)。球的颜色序列直接显示在屏幕上。

  5. 后验信念分布报告(Posterior elicitation):被试再次使用同一界面报告更新后的信念分布。此时默认起始分布为被试自己刚才报告的先验分布。

  6. 进入下一任务:完成一个任务后,系统有放回地从99个罐子中重新选择一个新罐子,重复上述流程。所有被试面对相同的罐子集和抽球序列,但任务呈现顺序在被试间随机化。

Dollar Urn设计(识别motivated beliefs):30个任务中的15个(随机分散在不同位置)为"dollar urn"任务。在这些任务中,被试额外获得一笔与选中罐子红球数量(未知)成正比的报酬(以美分计)。因此被试在这些任务中有偏好更高红球比例的经济激励。剩余15个为中性任务(neutral urn),无此额外报酬。通过比较dollar urn和neutral urn中的信念更新参数(α vs. β),可以区分motivated belief偏差(乐观/悲观)和纯认知推断偏差。

序列设计(识别sequence-related biases):在第二轮信号中,部分任务的球序列在末尾包含连续同色球(streak),例如末尾连续3个红球或3个蓝球。通过比较含streak和不含streak任务中的推断系数,可以区分hot-hand fallacy(streak后过度推断)和gambler's fallacy(streak后反向推断)。

激励机制:所有信念报告均通过binarized scoring rule(BSR)激励。具体做法参照Schlag and Van der Weele (2013)的方法,激励信念分布的不同矩。同时参照Danz et al. (2022)的做法,不向被试披露具体的评分规则公式,而是告知被试:为最大化期望报酬,应始终如实报告对红球百分比的猜测及不确定性程度。实验结束后,随机抽取一个任务用于支付。

参数变化(across 30 tasks):第一轮信号数量∈{1, 2, 3},第二轮信号数量∈{3, 5, 7};红蓝球比例变化覆盖不同的真实概率水平;序列中是否含streak以及streak方向(全红/全蓝)均有变化。

理论模型

贝叶斯基准:假设agent观察n个独立同分布的Bernoulli试验信号。先验信念为beta分布 π(p|a₀, b₀),由于beta分布是二项分布的共轭先验,贝叶斯后验也是beta分布 π(p|aₙ, bₙ),其中 aₙ = k + a₀, bₙ = (n-k) + b₀(k为成功次数)。

基线模型(Baseline)——两个偏差:引入对似然函数和先验的指数扭曲:

  • 扭曲后似然 L̃ = L^γ,γ>1为overinference,γ∈[0,1)为underinference,γ<0为against signal
  • 扭曲后先验 π̃ = π^δ,δ>1为base-rate overuse,δ<1为base-rate neglect
  • 后验参数:ã_n = γk + δ(a₀-1) + 1, b̃_n = γ(n-k) + δ(b₀-1) + 1

完整模型(Complete)——扩展至多种偏差

  1. Good/bad news不对称与motivated beliefs:将γ拆分为α(对成功/好消息的反应)和β(对失败/坏消息的反应)。α>1且β<1表示乐观偏差,反之为悲观偏差。α>β为good news effect,α<β为bad news effect。通过dollar urn(I_Pref=1)与neutral urn的交互项 α_Pref, β_Pref 来识别。

  2. Confirmation bias:定义确认度 c 为先验期望值E(π(p))与信号均值k/n之间、先验密度函数下方的面积。ρ<0表示confirmation bias(信号越确认先验,越被放大),ρ>0表示disconfirmation bias。

  3. Sequence-related biases:通过信号序列末尾是否含streak(I_Seq)与推断系数的交互项 α_Seq, β_Seq 来识别。α₀+α_Seq>1 或 β₀+β_Seq>1为hot-hand fallacy;<0为gambler's fallacy。

  4. Precision biases:后验方差 Ṽar_n = ν × Var_n,ν<1为overprecision,ν>1为underprecision。

估计方程(Complete model)

  • ã_n - 1 = (α₀ + α_Pref·I_Pref + α_Seq·I_Seq_s)k + ρ_s·c + δ_s(a₀-1) + ε_a
  • b̃_n - 1 = (β₀ + β_Pref·I_Pref + β_Seq·I_Seq_f)(n-k) + ρ_f·c + δ_f(b₀-1) + ε_b
  • Ṽar_n = η + ν × Var_n + ε_v

在总体层面和个体层面分别估计,标准误在被试层面聚类。

核心发现

总体层面(Population-level)

  • Baseline模型:overinference(γ_s=37.23**, γ_f=76.20**,均显著大于贝叶斯基准)和base-rate neglect(δ_s=0.017***, δ_f=-0.0002***,均显著小于1)两种偏差显著存在。
  • Complete模型:纳入全部偏差后,overinference不再显著(被其他偏差渠道吸收),但base-rate neglect仍然显著且稳健。这说明简约模型中发现的overinference部分是遗漏偏差的伪像。
  • 总体层面R²极低(0.002-0.004),因为不同个体的偏差方向相反、在总体水平相互抵消。

个体层面(Individual-level)

  • 所有测试的偏差类型在数据中均存在,没有任何一种偏差在纳入完整模型后完全消失。
  • Hot-hand fallacy是最普遍的偏差:约44%的被试在5%水平显著表现出hot-hand fallacy(Figure 4b),远超其他偏差类型。
  • **Overinference(约31%)和base-rate distortions(BRO约29%, BRN约27%)**也较常见。
  • Confirmation bias和underprecision相对罕见
  • Baseline模型中17%的被试无法归类(No Bias),Complete模型将这一比例降至仅2人。

偏差的相对重要性(Bias-specific effects)

  • 期望值偏离方面:gambler's fallacy(≈0.38)和optimism(≈0.35)产生最大偏离,即当这些偏差出现时对后验期望值的扭曲最大。
  • 方差偏离方面:hot-hand fallacy对后验方差的影响最突出。
  • 综合考虑频率和效应量:motivated beliefs(optimism, pessimism)和sequence-related biases(hot-hand, gambler's fallacy)是biased inference的主要驱动力。

偏差的共现模式(Co-occurrence)

  • Hot-hand和gambler's fallacy强烈负相关(ϕ≈-0.36),几乎互斥:Pr(HotHand=1|Gambler=1)≈0.11 vs. Pr(HotHand=1|Gambler=0)≈0.54。
  • 形成两个聚类:(1) "jumping-to-conclusions"组——overprecision、overinference、optimism与hot-hand正相关;(2) "prior-based"组——gambler's fallacy与against signal、base-rate overuse正相关。
  • 对立偏差(如BRN与BRO、overinference与underinference)在个体内趋于互斥。

与其他文献的关系

本文提出了一个统一框架来分离识别多种信念更新偏差,核心创新在于使用信念分布(beta分布的两个参数)而非点信念,从而获得更丰富的识别变异。

维度2:理论模型

详见上文"维度1:实验设计分析 — 理论模型"小节。核心是基于 beta 分布共轭先验的贝叶斯基准之上,通过对似然和先验的指数扭曲(α, β, δ)以及 confirmation 度量(ρ)、precision 系数(ν)、dollar urn 与 streak 交互项(α_Pref, β_Pref, α_Seq, β_Seq)共同构成一个统一的可估计结构方程。

维度3:核心发现

详见上文"维度1:实验设计分析 — 核心发现"小节。三大核心发现:(1) overinference 在简约模型中显著但在 complete model 中被吸收;(2) base-rate neglect 是唯一总体稳健的偏差;(3) 个体层面所有偏差均存在,hot-hand fallacy 最普遍(≈44%),偏差呈现"jumping-to-conclusions"与"prior-based"两个聚类。

维度4:变量概览

外生操纵变量

  • 第一轮信号数量 n₁ ∈ {1, 2, 3}
  • 第二轮信号数量 n₂ ∈ {3, 5, 7}
  • 选中罐子的真实红球比例 p(由99罐池随机抽取)
  • I_Pref ∈ {0, 1}:是否为dollar urn(提供与红球比例成正比的额外报酬)
  • I_Seq_s, I_Seq_f ∈ {0, 1}:第二轮信号末尾是否含成功/失败方向的streak

被试报告的内生变量

  • 先验分布参数 (a₀, b₀):通过两滑块(期望 + 不确定性)报告的 beta 分布
  • 后验分布参数 (ãₙ, b̃ₙ):观察第二轮信号后的 beta 分布
  • 后验方差 Ṽarₙ

结构估计参数

  • α₀, β₀:对成功/失败信号的基础推断系数(贝叶斯基准 = 1)
  • α_Pref, β_Pref:dollar urn 下的偏移(识别 motivated beliefs / optimism / pessimism)
  • α_Seq, β_Seq:streak 下的偏移(识别 hot-hand vs. gambler's fallacy)
  • δ_s, δ_f:先验权重(识别 base-rate neglect/overuse)
  • ρ_s, ρ_f:confirmation 系数(ρ<0 = confirmation bias)
  • ν:方差系数(ν<1 = overprecision)

控制变量与样本特征

  • 被试 N=88,Maastricht University BEELab,2023年10月预注册
  • 平均报酬 15.9 欧元
  • 标准误在被试层面聚类
  • 30个任务呈现顺序在被试间随机化(控制顺序效应)

维度5:局限性

  1. 样本量与统计功效:88名被试,每人30个任务,对个体级精细估计仍较小;尤其在罕见偏差(如 confirmation bias、underprecision)的检测上功效有限。
  2. 学生样本与单一文化背景:Maastricht University 的被试主要为大学生,外部效度对一般人群和真实经济决策的推广性受限。
  3. beta分布的参数化假设:信念被强制表达为 beta 分布,限制了多峰、偏态等复杂信念形态的表达;对于不熟悉概率推理的被试,两滑块界面可能引入测量误差。
  4. 激励规模相对较小:dollar urn 中的额外报酬以美分计,可能不足以触发强 motivated beliefs;现实中如金融决策的赌注更大,偏差结构可能不同。
  5. 静态信念更新:被试只观察两轮信号即报告先验/后验,未涉及动态多期信念演化和长期记忆效应(如 Zimmermann_2020_DynamicsOfMotivatedBeliefs 研究的延迟更新)。
  6. 偏差聚类的因果机制未识别:发现的"jumping-to-conclusions"和"prior-based"两聚类是相关性结果,未能识别这些偏差是否源自共同的潜在认知特质(如认知反思能力、风险偏好)。
  7. Dollar urn 设计的内部有效性:虽然区分了 motivated 和 neutral 任务,但 dollar urn 中的报酬本身可能改变注意力分配或风险态度,使 motivated beliefs 与其他混淆机制难以完全分离。
  8. 未控制学习效应:30个任务的顺序虽随机化,但被试在实验过程中可能学习贝叶斯更新或对界面更熟练,影响后期任务的偏差估计。

维度6:与其他文献的关系

详见上文"维度1:实验设计分析 — 与其他文献的关系"小节。本文与多篇核心文献的双链已在该小节给出。

维度7:可拓展的研究方向

  1. 多期动态信念更新:将本文的两轮信号设计扩展为多轮信号序列,识别 belief martingale violations、attention/forgetting 效应,以及偏差结构在时间上的稳定性。
  2. 大规模人群异质性研究:在更大、更代表性的样本(如全国调查、CrowdSource平台)中复制实验,识别偏差结构与人口学特征(年龄、教育、金融素养、认知反思测试 CRT)的关联。
  3. 偏差结构与真实经济决策的预测力:将个体级偏差估计与同被试的金融决策(投资组合、保险购买、消费贷款)数据合并,检验哪类偏差最能预测真实经济损失。
  4. 偏差的可塑性与干预:设计教育/反馈干预(如告知贝叶斯基准、提供历史业绩反馈),检验各类偏差对干预的可塑性差异。
  5. 神经经济学整合:结合 fMRI/EEG,检验"jumping-to-conclusions"与"prior-based"两聚类是否对应不同的脑区激活模式(如DLPFC vs. ventral striatum)。
  6. 跨文化比较:在不同文化背景(如东亚 vs. 西欧 vs. 北美)下复制实验,检验 motivated beliefs、hot-hand fallacy 的发生率是否存在文化差异。
  7. 信念分布引导工具的标准化:将本文使用的 beta 分布参数化引导工具开发为开源软件包,推广至其他领域(金融预测、医疗决策、气候信念)。
  8. 理论模型的微观基础:探索 jumping-to-conclusions 聚类与 prior-based 聚类是否对应不同的注意力模型(如 sparsity-based attention vs. anchoring)或认知能力差异。
  9. 政策应用:基于偏差类型对个体进行分类,设计个性化的金融建议或信息披露政策(如对 hot-hand 偏差强者强调长期均值回归、对 base-rate neglect 强者强调基准率)。

关键结论

  1. 简约模型高估了 overinference:当只引入 overinference 和 base-rate neglect 两个偏差时,overinference 系数显著(γ_s=37.23, γ_f=76.20);但纳入 motivated beliefs、sequence-related biases、confirmation bias、precision biases 后,overinference 不再显著——说明大量先前文献报告的"overinference"实际上是其他偏差的混淆效应。
  2. Base-rate neglect 是稳健存在的:在 baseline 和 complete 模型中均显著(δ ≈ 0),即使控制所有其他偏差渠道。
  3. 个体异质性掩盖总体真相:总体层面 R² 极低(0.002-0.004),原因是不同被试的偏差方向相反(如 optimism vs. pessimism、hot-hand vs. gambler)在聚合时抵消;个体层面所有偏差均存在,无被试是"无偏的贝叶斯人"。
  4. Hot-hand fallacy 是最普遍的个体偏差:约44%被试显著表现出 hot-hand,远超其他偏差;motivated beliefs(optimism, pessimism)和 sequence-related biases 是 biased inference 的主要驱动力。
  5. 偏差呈现两种相对的认知风格:(1)"jumping-to-conclusions"组——overprecision、overinference、optimism、hot-hand 正相关;(2)"prior-based"组——gambler's fallacy、against signal、base-rate overuse 正相关;hot-hand 与 gambler's fallacy 几乎互斥(ϕ≈-0.36),暗示个体倾向于一种或另一种认知风格但不会同时具备。
  6. 信念分布引导优于点信念:通过引导被试报告完整的 beta 分布,本文获得了识别多种偏差所需的额外变异,证明这一方法是未来信念偏差研究的有力工具。