Harrison_BeliefDistributions_BayesianOverconfidence

更新于 2026/7/5

Belief Distributions, Bayes' Rule and Bayesian Overconfidence

一句话总结

通过引出连续事件的完整主观信念分布(而非二元概率),首次分别检验贝叶斯更新中的"偏差"(均值偏离)与"信心"(方差偏离),发现信念更新呈现"初期欠自信→中期校准良好→后期过度自信"的动态路径,并将"贝叶斯过度自信(overprecision)"作为过度自信的严格定义。

研究问题

(1) 在连续事件的信念更新中,主观信念分布的均值是否符合贝叶斯后验均值(偏差检验)?(2) 主观信念分布的方差是否符合贝叶斯后验方差(信心检验)?(3) "过度自信"的不同定义(overestimation, overplacement, overprecision)的本质区别是什么?(4) 信息呈现的时间顺序(前装/均衡/后装)是否影响贝叶斯一致性?

核心贡献

  1. 概念创新:明确区分"偏差"(均值层面)与"信心"(方差层面)两种贝叶斯一致性维度,将过度自信严格定义为"贝叶斯过度自信"(信念方差显著小于贝叶斯后验方差,即overprecision)。
  2. 方法论创新:首次提供贝叶斯法则在连续事件上的激励相容行为检验框架,将QSR分布提取与Beta-Binomial共轭模型结合。
  3. 统计推断创新:引入ROPE(Region of Practical Equivalence)检验,避免"对不精确信念做精确点估计"的推断陷阱。
  4. 核心实证发现:揭示动态更新路径——期1欠自信、期2良好校准、期3-4过度自信。结论严重依赖"何时观察",单期数据可能误导。
  5. 过度自信文献的统一:阐明Overestimation与Overplacement本质上是偏差度量,唯有Overprecision可独立于偏差识别——为heterogeneous over-confidence literature提供统一框架。
  6. 信息呈现顺序的检验:通过前装/均衡/后装三种处理设计,检验信息时序对信念精度的影响。

维度1:实验设计分析

基本信息

  • 作者: Glenn W. Harrison, J. Todd Swarthout
  • 年份: 2022 (May)
  • 期刊/来源: Working Paper, Georgia State University
  • JEL: D84, D81, C11
  • 关键词: Bayes' Rule, Overconfidence, Behavior

一、核心研究问题与贡献

研究问题

以往对贝叶斯法则的行为检验仅关注偏差 (bias),即比较主观概率的点估计与贝叶斯后验概率的差异,且仅限于二元事件。本文首次将检验扩展到完整的信念分布,从而能同时评估:

  1. 偏差 (Bias): 主观信念分布的均值是否偏离贝叶斯后验均值
  2. 信心 (Confidence): 主观信念分布的方差是否偏离贝叶斯后验方差

核心贡献

  • 提出贝叶斯过度自信 (Bayesian Overconfidence) 的严格定义:个体信念分布的方差显著小于贝叶斯后验方差(即信念过于精确/overprecision)
  • 首次提供了贝叶斯法则在连续事件上的激励相容的行为检验
  • 揭示信念更新的动态路径:初期欠自信 --> 中期校准良好 --> 后期过度自信
  • 阐明"过度自信"三种定义(overestimation, overplacement, overprecision)的关系,指出前两者本质上是偏差的度量

二、理论框架与关键公式

2.1 贝叶斯法则:从标量到分布

二元事件的贝叶斯法则(标量后验)

p(A|B) = \frac{p(B|A) \cdot p(A)}{p(B|A) \cdot p(A) + p(B|\neg A) \cdot p(\neg A)} \quad (1)

在此设定下,后验是单一概率值(标量),均值已知则方差已定,无法独立考察信心问题。

多事件的贝叶斯法则(分布后验)

p(A|B) = \frac{p(B|A) \cdot p(A)}{p(B|A) \cdot p(A) + p(B|A') \cdot p(A') + p(B|A'') \cdot p(A'')} \quad (2)

当 A, A', A'' 被解释为离散随机变量的取值时,数据 B 会修正其概率质量函数,均值与方差可独立变化。推广到连续情形则产生具有独立均值和方差的后验分布。

2.2 二项式-Beta共轭模型

数据生成过程 (DGP):从含两种颜色球的罐中有放回抽样。

y_t | \theta \sim \text{Binomial}(N_t, \theta), \quad \theta \in [0,1]

其中 \theta 为蓝球的真实比例,N_t 为第 t 期样本量,y_t 为抽出的蓝球数。

共轭先验:Beta 分布,参数 a, b。扩散先验设 a = b = 1

后验更新规则

a' = a + y_t, \quad b' = b + N_t - y_t

多期累积更新:

a'' = a' + y_{t+1}, \quad b'' = b' + N_{t+1} - y_{t+1}

Beta后验的均值 = a'/(a'+b'),方差 = a'b'/[(a'+b')^2(a'+b'+1)]。方差随样本量增大而缩小,这正是"贝叶斯信心"的来源。

2.3 二次评分规则 (QSR) 信念引出

将连续分布域划分为 K 个区间,被试报告每个区间 k 的概率 r_kr_k \geq 0, \sum r_i = 1)。

支付函数(Matheson & Winkler, 1976):

S = \alpha + \beta \left[ 2 \times r_k - \sum_{i=1}^{K} (r_i)^2 \right] \quad (3)

其中 k 为真实值所在区间。\alpha 为固定禀赋,\beta 为缩放参数。

该规则为严格适当评分规则 (strictly proper scoring rule):风险中性的被试在如实报告主观概率时期望收益最大化。对于EUT个体,在实验中常见的风险厌恶水平下,QSR直接引出的信念"近似正确"。

2.4 偏差与信心的定义

维度 定义 检验方式
贝叶斯偏差 主观信念分布均值与后验均值的统计显著差异 比较 \mu_{belief} vs \mu_{posterior}
贝叶斯过度自信 主观信念方差显著小于后验方差 \sigma^2_{belief} < \sigma^2_{posterior}
贝叶斯欠自信 主观信念方差显著大于后验方差 \sigma^2_{belief} > \sigma^2_{posterior}

ROPE (Region of Practical Equivalence) 检验:将点零假设转换为区间零假设,评估后验均值/标准差落在 ROPE 内的后验概率,避免将"不精确信念的精确估计"误判为偏差。


三、实验设计

3.1 基本任务

  • 被试: 122名 Georgia State University 本科生
  • 激励: 每人 $5 参与费 + 信念引出任务与彩票任务的真实支付
  • 刺激物: 含100个蓝色和橙色球的罐,有放回抽样
  • 信念引出: 将 [0,1] 划分为10个区间(0-10%, 11-20%, ..., 91-100%),被试分配100个代币到各区间,基于QSR计算支付

3.2 处理组设计

每位被试观察4个独立样本(4个时期),累计观察40次抽取。三种处理(between-subjects):

处理组 期1 期2 期3 期4 设计意图
A (前装) 28 4 4 4 期1后验信息量大
B (均衡) 16 8 8 8 中等信息量(对照组)
C (后装) 4 12 12 12 期1后验信息量小
  • 5个实验场次,蓝球真实比例分别为 0.77, 0.23, 0.63, 0.37, 0.15
  • 每次抽样后引出完整信念分布
  • 实验结束后揭示真实罐组成

3.3 关键设计特征

  • 后验分布对每个被试-每期精确可计算(已知先验 + 已知样本)
  • 偏差与信心的评估相对于个体特定后验,而非总体参数
  • 采用动画虚拟手从罐中抽球,增强DGP可信度
  • 同时包含风险偏好引出任务(50道二元彩票选择题)

四、主要实验结果

4.1 动态更新路径(核心发现)

时期 偏差 (Bias) 信心 (Confidence) 整体校准
期1 显著有偏(均值高于后验) 欠自信(方差远大于后验方差) 校准很差
期2 接近无偏 适当自信(方差接近后验方差) 校准良好
期3 接近无偏 过度自信(方差小于后验方差) 均值对但信心过多
期4 接近无偏 过度自信(方差显著小于后验方差) 均值对但信心过多

关键洞察: 结论取决于"何时看数据"。仅看期1会得出"有偏且欠自信";仅看期2会得出"贝叶斯校准良好";看完期3-4则发现"无偏但过度自信"。

4.2 ROPE 检验结果

  • 均值 ROPE: 期2-4中,在10%邻域的ROPE下,证据支持信念均值与后验均值一致
  • 标准差 ROPE: 期1中标准差偏离(欠自信);期2中25% ROPE下接受;期3-4中所有ROPE均拒绝(过度自信)
  • 联合 ROPE(均值 + 标准差): 仅期2在30%以上ROPE时证据支持与贝叶斯后验一致

4.3 信息前装效应

  • 期1: 后装组(小样本4次)的信念方差反而小于其后验的预测值(相对于均衡对照组)
  • 期2: 处理组对标准差偏离无显著差异
  • 期3-4: 前装和后装组倾向于比均衡对照组有略高方差,但总体行为均为贝叶斯过度自信
  • 信息处理对偏差(均值偏离)在各期均无显著影响

4.4 人口统计学效应

  • 总体上人口统计学变量无显著影响,表明上述动态模式是普遍行为规律
  • 例外: 青少年、大三和大四学生的置信区间更宽;商科专业学生方差更小(期1校准更好,但期3-4过度自信更严重)

五、与文献的关系

5.1 过度自信的三张面孔

定义 含义 与本文关系
Overestimation 高估自己的绝对能力/表现 实质上是偏差的度量,非信心度量
Overplacement 高估自己相对他人的排名 实质上是偏差的度量,非信心度量
Overprecision 信念精度过高(方差过低) 本文采用的定义 = 贝叶斯过度自信

本文论证:前两种定义若不知道个体信念的精度(分布),则无法判断其统计显著性。只有引出完整分布、评估overprecision,才能真正识别过度自信。

5.2 经典设计的局限

研究 局限
Grether (1980, 1992) 仅引出二元事件概率,无法考察信心
Griffin & Tversky (1992) "信心"实际指主观概率的高低(即偏差),非分布方差
Gigerenzer & Hoffrage (1995) 关注二元事件偏差(自然频率 vs 概率格式),不涉及信心
Eil & Rao (2011) 引出了信念分布,但仅比较分布均值,未评估方差

六、方法论启示

  1. 分布 vs 点估计: 仅引出主观概率点估计无法区分偏差与信心,必须引出完整信念分布
  2. 个体特定基准: 信心必须相对于个体面临的特定后验来定义,而非相对于总体参数
  3. ROPE 而非点零假设: 应使用ROPE避免"精确估计不精确信念"的推断陷阱
  4. 动态视角: 贝叶斯更新的行为一致性取决于观察的时间窗口,需要多轮更新才能揭示完整模式

标签

#belief_updating #overconfidence #Bayes_rule #belief_distribution #overprecision #experiment #QSR #scoring_rule #Beta_distribution #ROPE

维度2:理论模型

详见上文"理论框架与关键公式"部分。核心模型为:

  • 数据生成过程:Binomial(N, θ),θ为蓝球真实比例
  • 共轭先验:Beta(a, b),扩散先验 a=b=1
  • 贝叶斯后验更新:a' = a + y, b' = b + N - y
  • 信念引出:QSR支付函数 S = \alpha + \beta[2r_k - \sum_i (r_i)^2]
  • 个体特定基准:每个被试每期的贝叶斯后验分布(均值、方差)作为评估其信念的基准

维度3:核心发现

详见上文"主要实验结果"部分。核心结果可总结为:

  1. 动态校准路径:期1有偏且欠自信→期2接近无偏且适当自信→期3-4无偏但过度自信。
  2. ROPE检验:均值在期2-4一致;标准差在期1偏差(欠自信)、期2接受、期3-4拒绝(过度自信)。
  3. 信息处理无显著效应:前装/均衡/后装三种处理对偏差无显著差异,对信心也无显著影响(除期1后装组方差反小于预测)。
  4. 人口学异质性有限:商科学生方差更小(期1校准更好但期3-4过度自信更严重),其他人口学变量基本无影响。

维度4:变量概览

关键自变量(实验处理):

  • 信息处理类型:A(前装:28-4-4-4)/ B(均衡:16-8-8-8)/ C(后装:4-12-12-12),between-subjects
  • 抽样期数 t = 1, 2, 3, 4
  • 5个场次的真实蓝球比例:θ ∈ {0.77, 0.23, 0.63, 0.37, 0.15}

关键因变量:

  • 主观信念分布的均值 \mu_{belief, i, t}
  • 主观信念分布的标准差 \sigma_{belief, i, t}
  • 贝叶斯偏差:\mu_{belief} - \mu_{posterior}
  • 贝叶斯过度自信指标:\sigma_{posterior} - \sigma_{belief}(正值=过度自信)
  • ROPE通过/不通过判断(不同邻域宽度)

关键参数:

  • QSR:\alpha, \beta 缩放参数
  • 区间数 K = 10
  • 代币数 100
  • 后验Beta分布参数:a, b(每被试每期更新)
  • ROPE邻域宽度:5%、10%、25%、30%等

控制变量:

  • 风险偏好(通过50道二元彩票引出)
  • 人口学:年龄、年级、专业(商科 vs 非商科)
  • 性别、种族

维度5:局限性

  1. 样本规模有限:122名被试,5个场次,每处理组样本量不足以做精细的子组分析。
  2. 被试群体局限:仅美国本科生,外部效度受限;专业人士、金融市场参与者、跨文化样本是否表现相同动态尚不清楚。
  3. 任务环境的人为性:罐子-球的随机抽样虽透明可信,但与现实经济信念形成情境(基于历史经验、专家信号、社交信息)差异巨大。
  4. 共轭先验的强假设:Beta-Binomial框架要求被试的先验为Beta分布,与扩散先验一致;如果被试有特定的非Beta先验,对比基准可能失准。
  5. 激励相容性的局限:QSR只有在风险中性或近似风险中性时严格激励相容;尽管 Harrison_2017_ScoringRules_SubjectiveProbability 证明分布提取的均值受风险厌恶影响小,方差受影响的程度仍需进一步研究。
  6. 期数有限:仅观察4期,长期更新(如10期、20期)下"过度自信"是否进一步加深、是否反弹未知。
  7. 缺乏认知机制识别:发现了"过度自信"的现象,但未深入解释机制——是记忆扭曲、过度推断、还是认知 heuristics?
  8. 未与传统overconfidence测量对照:未对比overprecision与overestimation/overplacement在同一样本中的相关性。
  9. 工作论文阶段:尚未经过期刊同行评审完整周期。
  10. 对Cognitive Uncertainty无内生处理:与 Enke_Graeber_2023_CognitiveUncertainty 的认知不确定性框架未做整合。

维度6:与其他文献的关系

信念分布提取的方法论基础: 本文与 Harrison_2017_ScoringRules_SubjectiveProbability 同源,使用同一QSR-K区间分布提取方法。本文进一步将该方法应用于贝叶斯一致性检验,将方法论贡献转化为实质性行为发现。

贝叶斯更新的传统检验: Grether (1980, 1992) 是检验贝叶斯法则的经典文献,但仅限于二元事件(无法独立考察信心)。 Holt_2009_BayesianUpdating 也属此类。本文首次将检验扩展到分布层面,区分偏差与信心。

信念更新偏误: 本文与 Eil_Rao_2011_GoodNewsBadNews_AsymmetricProcessing 的good news/bad news框架对话——后者提取了信念分布但只比较均值。本文方法允许同时检验均值和方差,是该领域的方法论升级。 Augenblick_Lazarus_Thaler_2025_Overinference_Underinference 等关于overinference/underinference的研究本质上是关于"信号权重"的偏差检验,本文提供了正交维度的"信心"检验。

过度自信的多重定义: 本文澄清了Moore & Healy (2008) 关于overestimation/overplacement/overprecision三种过度自信定义的关系。本文论证:前两种本质上是均值偏差,唯有overprecision是信念精度的独立维度。 Benoit_2011_ApparentOverconfidence 也对此有相关讨论。

过度自信与金融市场: 过度自信被视为众多金融异象的核心解释(如 Daniel_Hirshleifer_2015_Overconfident_Returns_TradingOdean_Volume_OverconfidenceBarber_Odean_BoysWillBeBoys_Gender_Overconfidence)。本文为这些应用提供了更严格的overprecision测量基础。

Bayesian Overconfidence的相关测量: BoschRosa_Overprecision_IrrationalInattention 探讨overprecision与rational inattention的关系。 Amelio_2022_CognitiveUncertainty_Overconfidence 研究Cognitive Uncertainty与overconfidence的关系。本文提供了量化overprecision的实验基准。

与认知不确定性框架的联系: Enke_Graeber_2023_CognitiveUncertainty 提出认知不确定性概念。本文的"贝叶斯欠自信→过度自信"动态可与认知不确定性的演化关联(早期不确定性高,后期低于贝叶斯)。

信念测量综述: Wang_Zhang_2020_BeliefElicitation_Methods 综述了各类信念引出方法; Canen_2022_BeliefElicitation_Incentives 探讨了激励对信念引出的影响。本文具体落实了QSR分布提取在贝叶斯检验中的应用。

维度7:可拓展的研究方向

  1. 过度自信的认知机制:将"贝叶斯过度自信"的动态路径与认知机制(associative memory、selective attention、motivated reasoning)联系,研究为何信心会随时间从欠到过。
  2. 金融市场中的应用:在金融市场预期实验(如 Bossaerts_2004_AssetPricing_LargeScaleExperiment)中应用本文的overprecision测量,研究市场环境下信念精度的演化。
  3. 更长期更新的动态:拓展到10、20期甚至更长,研究"过度自信"是否进一步加深、是否反弹、是否存在长期均衡。
  4. 与overestimation的同时测量:在同一被试中同时测量overprecision与overestimation/overplacement,研究三者相关性与可分离性。
  5. 跨文化比较:在非WEIRD样本中复制实验,检验"动态校准路径"是否具有文化普遍性。
  6. 专业预测者:在金融分析师、专业预测者中复制实验,检验专业训练是否消除过度自信。
  7. 信号质量与信心校准:研究在噪声信号、模糊信号下信念精度的演化,与本文的"清洁信号"对比。
  8. AI/LLM贝叶斯一致性:研究LLM agent在分布提取任务中的表现,比较其与人类的偏差/信心动态(参考 Bini_BehavioralEconomics_AI_LLMBiases)。
  9. 结构性估计:将信念分布数据用于结构性估计认知偏误模型(如 Cognitive Uncertainty、Sticky Expectations)的参数。
  10. 与情绪、偏好的交互:研究情绪状态、损失厌恶等如何影响overprecision的演化。

关键结论

  1. 过度自信应严格定义为"贝叶斯过度自信"(overprecision):信念分布的方差显著小于贝叶斯后验方差。Overestimation与Overplacement本质上是均值偏差度量,无法独立识别"过度自信"现象。
  2. 贝叶斯一致性检验必须在分布层面进行:仅引出二元概率或分布点估计无法分离偏差与信心。完整的信念分布引出(结合QSR + Beta-Binomial共轭)是检验贝叶斯法则的金标准方法。
  3. 信念更新呈现动态校准路径:期1欠自信→期2良好校准→期3-4过度自信。结论高度依赖"何时观察"——单期数据可能给出截然不同的结论。这意味着已有过度自信文献中"过度自信"的稳健性可能取决于实验时长。
  4. 均值校准比方差校准更稳健:贝叶斯偏差(均值偏离)在期2后基本消失,而信心偏离(方差偏离)持续存在并演变。这暗示行为人对"中心倾向"较为忠实,但对"不确定性程度"系统性误判。
  5. 信息呈现顺序对信念精度无系统影响:前装、均衡、后装处理在多数期数下无显著差异,表明"贝叶斯过度自信"是稳健的行为规律而非信息呈现的伪影。
  6. 方法论意义重大:ROPE检验避免了"用精确点估计判断不精确信念"的统计陷阱,为行为经济学的贝叶斯检验提供了更稳健的统计推断框架。