GonzalezFernandez_2026_BeliefBiasIdentification
一句话总结
通过引导被试报告信念分布(beta分布)而非点信念,本文构建了一个能在同一实验、同一被试内同时识别多种信念偏差(overinference、base-rate neglect、motivated beliefs、confirmation bias、hot-hand/gambler's fallacy、precision biases)的统一结构估计框架,并发现传统简约模型中的overinference在控制其他偏差后大部分被吸收,而base-rate neglect是唯一在总体层面稳健存在的偏差;个体层面所有偏差均存在且呈现可识别的聚类模式。
研究问题
- 方法论问题:信念引导文献长期以来依赖点信念(point beliefs),导致对信念偏差的识别存在严重的遗漏变量问题——能否通过引导信念分布(包含期望和不确定性两个维度)来分离识别多种偏差?
- 实证问题:在同一统一框架下,多种已知的信念更新偏差(base-rate neglect、overinference、good news/bad news asymmetry、confirmation bias、hot-hand/gambler's fallacy、precision biases)的相对普遍性、相对效应量和共现结构如何?
- 聚合问题:为什么不同研究在总体层面发现的偏差方向不一致?个体异质性如何在聚合时相互抵消,从而掩盖个体层面的真实偏差结构?
- 稳健性问题:当控制其他偏差渠道时,先前文献中报告的"overinference"是否仍然稳健存在,还是部分由其他偏差伪装?
核心贡献
- 方法论贡献:提出一个基于beta分布参数化信念的结构识别策略,利用beta分布的两个参数(期望与精度)作为额外识别变异,使得多种偏差可在单一估计方程中被同时识别。该方法配合 dollar urn vs. neutral urn 设计(识别motivated beliefs)和streak vs. non-streak序列设计(识别sequence-related biases),在同一被试同一实验内分离多种偏差源。
- 实证贡献:在88名被试、30个任务的实验数据中,系统记录了8类偏差的频率、效应量和共现结构。发现:(1) base-rate neglect是唯一在总体层面稳健的偏差;(2) hot-hand fallacy是个体层面最普遍的偏差(约44%被试显著);(3) 简约模型中的overinference在complete model中显著缩小,提示部分overinference是遗漏偏差的伪像。
- 理论贡献:识别出两个偏差聚类——"jumping-to-conclusions"组(overprecision + overinference + optimism + hot-hand)和"prior-based"组(gambler's fallacy + against signal + base-rate overuse);hot-hand与gambler's fallacy强烈互斥(ϕ≈-0.36),表明它们可能源自相反的认知机制。
- 政策与方法论启示:解释了为何不同研究关于overinference vs. underinference、optimism vs. pessimism的总体发现相互矛盾——是个体层面相反方向偏差在聚合时抵消的结果,呼吁未来文献将估计转向个体层面。
维度1:实验设计分析
实验设计
实验在Maastricht University的BEELab进行,共招募88名被试,每人完成30个信念引导任务。实验于2023年10月预注册。被试平均报酬15.9欧元。
单个任务的完整流程(重复30次):
-
罐子选择阶段:屏幕展示一个由99个罐子组成的池(pool)。每个罐子含100个球,Urn 1含1个红球99个蓝球,Urn 2含2个红球98个蓝球,以此类推直到Urn 99含99个红球1个蓝球。系统从99个罐子中随机选择一个,但不告知被试选中了哪个。被试的任务是猜测选中罐子中红球的百分比。
-
第一轮信号观察:被试观察从选中罐子中有放回抽取的第一组球。第一组球的数量为1个、2个或3个(across tasks变化)。屏幕上直接显示抽出的球的颜色(红色或蓝色)。
-
先验信念分布报告(Prior elicitation):观察第一组球后,被试通过一个动态图形界面报告自己的信念分布。界面展示一个beta分布图形,配有两个滑块:
- 滑块1:"What percentage of RED balls do you expect the selected urn to have?"——控制beta分布的期望值
- 滑块2:"What is your uncertainty level about the percentage you have just chosen?"——控制beta分布的标准差
被试通过调整这两个滑块来选择一个特定的beta分布。默认起始分布为均匀分布(uniform)。界面图形会动态更新,纵轴自动缩放以保持信息量(被试也可切换为固定缩放)。在正式开始前,被试观看了一段5分钟的教学视频,解释如何解读和操作该图形界面。被试还需通过至少3/5道理解题才能参与实验(未通过者有第二次机会答对全部题目)。
-
第二轮信号观察:先验报告完成后,屏幕展示从同一选中罐子有放回抽取的第二组球。第二组球的数量为3个、5个或7个(across tasks变化)。球的颜色序列直接显示在屏幕上。
-
后验信念分布报告(Posterior elicitation):被试再次使用同一界面报告更新后的信念分布。此时默认起始分布为被试自己刚才报告的先验分布。
-
进入下一任务:完成一个任务后,系统有放回地从99个罐子中重新选择一个新罐子,重复上述流程。所有被试面对相同的罐子集和抽球序列,但任务呈现顺序在被试间随机化。
Dollar Urn设计(识别motivated beliefs):30个任务中的15个(随机分散在不同位置)为"dollar urn"任务。在这些任务中,被试额外获得一笔与选中罐子红球数量(未知)成正比的报酬(以美分计)。因此被试在这些任务中有偏好更高红球比例的经济激励。剩余15个为中性任务(neutral urn),无此额外报酬。通过比较dollar urn和neutral urn中的信念更新参数(α vs. β),可以区分motivated belief偏差(乐观/悲观)和纯认知推断偏差。
序列设计(识别sequence-related biases):在第二轮信号中,部分任务的球序列在末尾包含连续同色球(streak),例如末尾连续3个红球或3个蓝球。通过比较含streak和不含streak任务中的推断系数,可以区分hot-hand fallacy(streak后过度推断)和gambler's fallacy(streak后反向推断)。
激励机制:所有信念报告均通过binarized scoring rule(BSR)激励。具体做法参照Schlag and Van der Weele (2013)的方法,激励信念分布的不同矩。同时参照Danz et al. (2022)的做法,不向被试披露具体的评分规则公式,而是告知被试:为最大化期望报酬,应始终如实报告对红球百分比的猜测及不确定性程度。实验结束后,随机抽取一个任务用于支付。
参数变化(across 30 tasks):第一轮信号数量∈{1, 2, 3},第二轮信号数量∈{3, 5, 7};红蓝球比例变化覆盖不同的真实概率水平;序列中是否含streak以及streak方向(全红/全蓝)均有变化。
理论模型
贝叶斯基准:假设agent观察n个独立同分布的Bernoulli试验信号。先验信念为beta分布 π(p|a₀, b₀),由于beta分布是二项分布的共轭先验,贝叶斯后验也是beta分布 π(p|aₙ, bₙ),其中 aₙ = k + a₀, bₙ = (n-k) + b₀(k为成功次数)。
基线模型(Baseline)——两个偏差:引入对似然函数和先验的指数扭曲:
- 扭曲后似然 L̃ = L^γ,γ>1为overinference,γ∈[0,1)为underinference,γ<0为against signal
- 扭曲后先验 π̃ = π^δ,δ>1为base-rate overuse,δ<1为base-rate neglect
- 后验参数:ã_n = γk + δ(a₀-1) + 1, b̃_n = γ(n-k) + δ(b₀-1) + 1
完整模型(Complete)——扩展至多种偏差:
-
Good/bad news不对称与motivated beliefs:将γ拆分为α(对成功/好消息的反应)和β(对失败/坏消息的反应)。α>1且β<1表示乐观偏差,反之为悲观偏差。α>β为good news effect,α<β为bad news effect。通过dollar urn(I_Pref=1)与neutral urn的交互项 α_Pref, β_Pref 来识别。
-
Confirmation bias:定义确认度 c 为先验期望值E(π(p))与信号均值k/n之间、先验密度函数下方的面积。ρ<0表示confirmation bias(信号越确认先验,越被放大),ρ>0表示disconfirmation bias。
-
Sequence-related biases:通过信号序列末尾是否含streak(I_Seq)与推断系数的交互项 α_Seq, β_Seq 来识别。α₀+α_Seq>1 或 β₀+β_Seq>1为hot-hand fallacy;<0为gambler's fallacy。
-
Precision biases:后验方差 Ṽar_n = ν × Var_n,ν<1为overprecision,ν>1为underprecision。
估计方程(Complete model):
- ã_n - 1 = (α₀ + α_Pref·I_Pref + α_Seq·I_Seq_s)k + ρ_s·c + δ_s(a₀-1) + ε_a
- b̃_n - 1 = (β₀ + β_Pref·I_Pref + β_Seq·I_Seq_f)(n-k) + ρ_f·c + δ_f(b₀-1) + ε_b
- Ṽar_n = η + ν × Var_n + ε_v
在总体层面和个体层面分别估计,标准误在被试层面聚类。
核心发现
总体层面(Population-level):
- Baseline模型:overinference(γ_s=37.23**, γ_f=76.20**,均显著大于贝叶斯基准)和base-rate neglect(δ_s=0.017***, δ_f=-0.0002***,均显著小于1)两种偏差显著存在。
- Complete模型:纳入全部偏差后,overinference不再显著(被其他偏差渠道吸收),但base-rate neglect仍然显著且稳健。这说明简约模型中发现的overinference部分是遗漏偏差的伪像。
- 总体层面R²极低(0.002-0.004),因为不同个体的偏差方向相反、在总体水平相互抵消。
个体层面(Individual-level):
- 所有测试的偏差类型在数据中均存在,没有任何一种偏差在纳入完整模型后完全消失。
- Hot-hand fallacy是最普遍的偏差:约44%的被试在5%水平显著表现出hot-hand fallacy(Figure 4b),远超其他偏差类型。
- **Overinference(约31%)和base-rate distortions(BRO约29%, BRN约27%)**也较常见。
- Confirmation bias和underprecision相对罕见。
- Baseline模型中17%的被试无法归类(No Bias),Complete模型将这一比例降至仅2人。
偏差的相对重要性(Bias-specific effects):
- 期望值偏离方面:gambler's fallacy(≈0.38)和optimism(≈0.35)产生最大偏离,即当这些偏差出现时对后验期望值的扭曲最大。
- 方差偏离方面:hot-hand fallacy对后验方差的影响最突出。
- 综合考虑频率和效应量:motivated beliefs(optimism, pessimism)和sequence-related biases(hot-hand, gambler's fallacy)是biased inference的主要驱动力。
偏差的共现模式(Co-occurrence):
- Hot-hand和gambler's fallacy强烈负相关(ϕ≈-0.36),几乎互斥:Pr(HotHand=1|Gambler=1)≈0.11 vs. Pr(HotHand=1|Gambler=0)≈0.54。
- 形成两个聚类:(1) "jumping-to-conclusions"组——overprecision、overinference、optimism与hot-hand正相关;(2) "prior-based"组——gambler's fallacy与against signal、base-rate overuse正相关。
- 对立偏差(如BRN与BRO、overinference与underinference)在个体内趋于互斥。
与其他文献的关系
本文提出了一个统一框架来分离识别多种信念更新偏差,核心创新在于使用信念分布(beta分布的两个参数)而非点信念,从而获得更丰富的识别变异。
- 与 Benjamin_2019_ErrorsProbabilisticReasoning_Handbook 的关系:Benjamin (2019) 综述了概率推理中的各种偏差,但指出传统框架通常逐一研究偏差。本文正是回应这一局限,构建了同时容纳多种偏差的结构模型。
- 与 Augenblick_Lazarus_Thaler_2025_Overinference_Underinference 的关系:Augenblick et al. (2025) 研究overinference和underinference,但在二元状态框架下。本文发现,简约模型中的overinference在纳入更多偏差后消失,说明部分overinference可能是遗漏变量偏误。
- 与 Coutts_2019_TestingModels_BeliefBias 和 Coutts_2019_GoodNewsBadNews_BeliefUpdating 的关系:Coutts也研究多种信念偏差模型的区分,但使用点信念。本文通过分布信念提供了更精确的分离识别。
- 与 Eil_Rao_2011_GoodNewsBadNews_AsymmetricProcessing 和 Zimmermann_2020_DynamicsOfMotivatedBeliefs 的关系:这些文章研究好/坏消息的不对称处理和motivated beliefs的动态。本文的dollar urn设计提供了在同一被试内、同一实验中分离motivated和unmotivated偏差的方法。
- 与 Enke_Graeber_2023_CognitiveUncertainty 的关系:Enke and Graeber提出cognitive uncertainty概念。本文的连续状态空间设定可被解读为agent对自身信念的不确定性,与cognitive uncertainty框架相容。
- 与 Benjamin_BaseRateNeglect_Foundations 的关系:Benjamin et al.聚焦base-rate neglect。本文发现base-rate neglect是唯一在总体层面稳健存在的偏差,即使控制了所有其他偏差渠道。
- 与 Palminteri_2022_ConfirmationBias_ReinforcementLearning 的关系:Palminteri研究强化学习中的confirmation bias。本文发现confirmation bias在信念更新实验中相对罕见,可能与实验设计(无先前行动承诺)有关。
- 与 Danz_Vesterlund_2022_BeliefElicitation_BIC 和 Harrison_2017_ScoringRules_SubjectiveProbability 的关系:本文采用BSR激励机制引导信念分布,并参照Danz et al.的做法不披露具体评分规则。信念引导工具来自Gonzalez-Fernandez et al. (2025)的参数化beta分布引导方法。
- 与 Jiao_2020_PayoffBased_BeliefDistortion 的关系:Jiao et al. (2020) 也使用信念分布来研究多种偏差,但依赖正态分布假设且涵盖的偏差集合较窄。本文的beta分布框架更适合概率推理场景。
- 与 Benabou_2015_EconomicsMotivatedBeliefs 和 Brunnermeier_2007_OptimalBeliefs_SkewedReturns 的关系:这些理论文章讨论motivated beliefs的经济学基础。本文的实证发现——motivated beliefs是biased inference的主要驱动力之一——为这些理论提供了实验支持。
维度2:理论模型
详见上文"维度1:实验设计分析 — 理论模型"小节。核心是基于 beta 分布共轭先验的贝叶斯基准之上,通过对似然和先验的指数扭曲(α, β, δ)以及 confirmation 度量(ρ)、precision 系数(ν)、dollar urn 与 streak 交互项(α_Pref, β_Pref, α_Seq, β_Seq)共同构成一个统一的可估计结构方程。
维度3:核心发现
详见上文"维度1:实验设计分析 — 核心发现"小节。三大核心发现:(1) overinference 在简约模型中显著但在 complete model 中被吸收;(2) base-rate neglect 是唯一总体稳健的偏差;(3) 个体层面所有偏差均存在,hot-hand fallacy 最普遍(≈44%),偏差呈现"jumping-to-conclusions"与"prior-based"两个聚类。
维度4:变量概览
外生操纵变量:
- 第一轮信号数量 n₁ ∈ {1, 2, 3}
- 第二轮信号数量 n₂ ∈ {3, 5, 7}
- 选中罐子的真实红球比例 p(由99罐池随机抽取)
- I_Pref ∈ {0, 1}:是否为dollar urn(提供与红球比例成正比的额外报酬)
- I_Seq_s, I_Seq_f ∈ {0, 1}:第二轮信号末尾是否含成功/失败方向的streak
被试报告的内生变量:
- 先验分布参数 (a₀, b₀):通过两滑块(期望 + 不确定性)报告的 beta 分布
- 后验分布参数 (ãₙ, b̃ₙ):观察第二轮信号后的 beta 分布
- 后验方差 Ṽarₙ
结构估计参数:
- α₀, β₀:对成功/失败信号的基础推断系数(贝叶斯基准 = 1)
- α_Pref, β_Pref:dollar urn 下的偏移(识别 motivated beliefs / optimism / pessimism)
- α_Seq, β_Seq:streak 下的偏移(识别 hot-hand vs. gambler's fallacy)
- δ_s, δ_f:先验权重(识别 base-rate neglect/overuse)
- ρ_s, ρ_f:confirmation 系数(ρ<0 = confirmation bias)
- ν:方差系数(ν<1 = overprecision)
控制变量与样本特征:
- 被试 N=88,Maastricht University BEELab,2023年10月预注册
- 平均报酬 15.9 欧元
- 标准误在被试层面聚类
- 30个任务呈现顺序在被试间随机化(控制顺序效应)
维度5:局限性
- 样本量与统计功效:88名被试,每人30个任务,对个体级精细估计仍较小;尤其在罕见偏差(如 confirmation bias、underprecision)的检测上功效有限。
- 学生样本与单一文化背景:Maastricht University 的被试主要为大学生,外部效度对一般人群和真实经济决策的推广性受限。
- beta分布的参数化假设:信念被强制表达为 beta 分布,限制了多峰、偏态等复杂信念形态的表达;对于不熟悉概率推理的被试,两滑块界面可能引入测量误差。
- 激励规模相对较小:dollar urn 中的额外报酬以美分计,可能不足以触发强 motivated beliefs;现实中如金融决策的赌注更大,偏差结构可能不同。
- 静态信念更新:被试只观察两轮信号即报告先验/后验,未涉及动态多期信念演化和长期记忆效应(如 Zimmermann_2020_DynamicsOfMotivatedBeliefs 研究的延迟更新)。
- 偏差聚类的因果机制未识别:发现的"jumping-to-conclusions"和"prior-based"两聚类是相关性结果,未能识别这些偏差是否源自共同的潜在认知特质(如认知反思能力、风险偏好)。
- Dollar urn 设计的内部有效性:虽然区分了 motivated 和 neutral 任务,但 dollar urn 中的报酬本身可能改变注意力分配或风险态度,使 motivated beliefs 与其他混淆机制难以完全分离。
- 未控制学习效应:30个任务的顺序虽随机化,但被试在实验过程中可能学习贝叶斯更新或对界面更熟练,影响后期任务的偏差估计。
维度6:与其他文献的关系
详见上文"维度1:实验设计分析 — 与其他文献的关系"小节。本文与多篇核心文献的双链已在该小节给出。
维度7:可拓展的研究方向
- 多期动态信念更新:将本文的两轮信号设计扩展为多轮信号序列,识别 belief martingale violations、attention/forgetting 效应,以及偏差结构在时间上的稳定性。
- 大规模人群异质性研究:在更大、更代表性的样本(如全国调查、CrowdSource平台)中复制实验,识别偏差结构与人口学特征(年龄、教育、金融素养、认知反思测试 CRT)的关联。
- 偏差结构与真实经济决策的预测力:将个体级偏差估计与同被试的金融决策(投资组合、保险购买、消费贷款)数据合并,检验哪类偏差最能预测真实经济损失。
- 偏差的可塑性与干预:设计教育/反馈干预(如告知贝叶斯基准、提供历史业绩反馈),检验各类偏差对干预的可塑性差异。
- 神经经济学整合:结合 fMRI/EEG,检验"jumping-to-conclusions"与"prior-based"两聚类是否对应不同的脑区激活模式(如DLPFC vs. ventral striatum)。
- 跨文化比较:在不同文化背景(如东亚 vs. 西欧 vs. 北美)下复制实验,检验 motivated beliefs、hot-hand fallacy 的发生率是否存在文化差异。
- 信念分布引导工具的标准化:将本文使用的 beta 分布参数化引导工具开发为开源软件包,推广至其他领域(金融预测、医疗决策、气候信念)。
- 理论模型的微观基础:探索 jumping-to-conclusions 聚类与 prior-based 聚类是否对应不同的注意力模型(如 sparsity-based attention vs. anchoring)或认知能力差异。
- 政策应用:基于偏差类型对个体进行分类,设计个性化的金融建议或信息披露政策(如对 hot-hand 偏差强者强调长期均值回归、对 base-rate neglect 强者强调基准率)。
关键结论
- 简约模型高估了 overinference:当只引入 overinference 和 base-rate neglect 两个偏差时,overinference 系数显著(γ_s=37.23, γ_f=76.20);但纳入 motivated beliefs、sequence-related biases、confirmation bias、precision biases 后,overinference 不再显著——说明大量先前文献报告的"overinference"实际上是其他偏差的混淆效应。
- Base-rate neglect 是稳健存在的:在 baseline 和 complete 模型中均显著(δ ≈ 0),即使控制所有其他偏差渠道。
- 个体异质性掩盖总体真相:总体层面 R² 极低(0.002-0.004),原因是不同被试的偏差方向相反(如 optimism vs. pessimism、hot-hand vs. gambler)在聚合时抵消;个体层面所有偏差均存在,无被试是"无偏的贝叶斯人"。
- Hot-hand fallacy 是最普遍的个体偏差:约44%被试显著表现出 hot-hand,远超其他偏差;motivated beliefs(optimism, pessimism)和 sequence-related biases 是 biased inference 的主要驱动力。
- 偏差呈现两种相对的认知风格:(1)"jumping-to-conclusions"组——overprecision、overinference、optimism、hot-hand 正相关;(2)"prior-based"组——gambler's fallacy、against signal、base-rate overuse 正相关;hot-hand 与 gambler's fallacy 几乎互斥(ϕ≈-0.36),暗示个体倾向于一种或另一种认知风格但不会同时具备。
- 信念分布引导优于点信念:通过引导被试报告完整的 beta 分布,本文获得了识别多种偏差所需的额外变异,证明这一方法是未来信念偏差研究的有力工具。