Belief Distributions, Bayes' Rule and Bayesian Overconfidence

一句话总结

通过引出连续事件的完整主观信念分布（而非二元概率），首次分别检验贝叶斯更新中的"偏差"（均值偏离）与"信心"（方差偏离），发现信念更新呈现"初期欠自信→中期校准良好→后期过度自信"的动态路径，并将"贝叶斯过度自信（overprecision）"作为过度自信的严格定义。

研究问题

(1) 在连续事件的信念更新中，主观信念分布的均值是否符合贝叶斯后验均值（偏差检验）？(2) 主观信念分布的方差是否符合贝叶斯后验方差（信心检验）？(3) "过度自信"的不同定义（overestimation, overplacement, overprecision）的本质区别是什么？(4) 信息呈现的时间顺序（前装/均衡/后装）是否影响贝叶斯一致性？

核心贡献

概念创新：明确区分"偏差"（均值层面）与"信心"（方差层面）两种贝叶斯一致性维度，将过度自信严格定义为"贝叶斯过度自信"（信念方差显著小于贝叶斯后验方差，即overprecision）。
方法论创新：首次提供贝叶斯法则在连续事件上的激励相容行为检验框架，将QSR分布提取与Beta-Binomial共轭模型结合。
统计推断创新：引入ROPE（Region of Practical Equivalence）检验，避免"对不精确信念做精确点估计"的推断陷阱。
核心实证发现：揭示动态更新路径——期1欠自信、期2良好校准、期3-4过度自信。结论严重依赖"何时观察"，单期数据可能误导。
过度自信文献的统一：阐明Overestimation与Overplacement本质上是偏差度量，唯有Overprecision可独立于偏差识别——为heterogeneous over-confidence literature提供统一框架。
信息呈现顺序的检验：通过前装/均衡/后装三种处理设计，检验信息时序对信念精度的影响。

维度1：实验设计分析

基本信息

作者: Glenn W. Harrison, J. Todd Swarthout
年份: 2022 (May)
期刊/来源: Working Paper, Georgia State University
JEL: D84, D81, C11
关键词: Bayes' Rule, Overconfidence, Behavior

一、核心研究问题与贡献

研究问题

以往对贝叶斯法则的行为检验仅关注偏差 (bias)，即比较主观概率的点估计与贝叶斯后验概率的差异，且仅限于二元事件。本文首次将检验扩展到完整的信念分布，从而能同时评估：

偏差 (Bias): 主观信念分布的均值是否偏离贝叶斯后验均值
信心 (Confidence): 主观信念分布的方差是否偏离贝叶斯后验方差

核心贡献

提出贝叶斯过度自信 (Bayesian Overconfidence) 的严格定义：个体信念分布的方差显著小于贝叶斯后验方差（即信念过于精确/overprecision）
首次提供了贝叶斯法则在连续事件上的激励相容的行为检验
揭示信念更新的动态路径：初期欠自信 --> 中期校准良好 --> 后期过度自信
阐明"过度自信"三种定义（overestimation, overplacement, overprecision）的关系，指出前两者本质上是偏差的度量

二、理论框架与关键公式

2.1 贝叶斯法则：从标量到分布

二元事件的贝叶斯法则（标量后验）：

p(A|B) = \frac{p(B|A) \cdot p(A)}{p(B|A) \cdot p(A) + p(B|\neg A) \cdot p(\neg A)} \quad (1)

在此设定下，后验是单一概率值（标量），均值已知则方差已定，无法独立考察信心问题。

多事件的贝叶斯法则（分布后验）：

p(A|B) = \frac{p(B|A) \cdot p(A)}{p(B|A) \cdot p(A) + p(B|A') \cdot p(A') + p(B|A'') \cdot p(A'')} \quad (2)

当 A, A', A'' 被解释为离散随机变量的取值时，数据 B 会修正其概率质量函数，均值与方差可独立变化。推广到连续情形则产生具有独立均值和方差的后验分布。

2.2 二项式-Beta共轭模型

数据生成过程 (DGP)：从含两种颜色球的罐中有放回抽样。

y_t | \theta \sim \text{Binomial}(N_t, \theta), \quad \theta \in [0,1]

其中 $\theta$ 为蓝球的真实比例， $N_t$ 为第 $t$ 期样本量， $y_t$ 为抽出的蓝球数。

共轭先验：Beta 分布，参数 $a, b$ 。扩散先验设 $a = b = 1$ 。

后验更新规则：

a' = a + y_t, \quad b' = b + N_t - y_t

多期累积更新：

a'' = a' + y_{t+1}, \quad b'' = b' + N_{t+1} - y_{t+1}

Beta后验的均值 $= a'/(a'+b')$ ，方差 $= a'b'/[(a'+b')^2(a'+b'+1)]$ 。方差随样本量增大而缩小，这正是"贝叶斯信心"的来源。

2.3 二次评分规则 (QSR) 信念引出

将连续分布域划分为 $K$ 个区间，被试报告每个区间 $k$ 的概率 $r_k$ （ $r_k \geq 0$ , $\sum r_i = 1$ ）。

支付函数（Matheson & Winkler, 1976）：

S = \alpha + \beta \left[ 2 \times r_k - \sum_{i=1}^{K} (r_i)^2 \right] \quad (3)

其中 $k$ 为真实值所在区间。 $\alpha$ 为固定禀赋， $\beta$ 为缩放参数。

该规则为严格适当评分规则 (strictly proper scoring rule)：风险中性的被试在如实报告主观概率时期望收益最大化。对于EUT个体，在实验中常见的风险厌恶水平下，QSR直接引出的信念"近似正确"。

2.4 偏差与信心的定义

维度	定义	检验方式
贝叶斯偏差	主观信念分布均值与后验均值的统计显著差异	比较 $\mu_{belief}$ vs $\mu_{posterior}$
贝叶斯过度自信	主观信念方差显著小于后验方差	$\sigma^2_{belief} < \sigma^2_{posterior}$
贝叶斯欠自信	主观信念方差显著大于后验方差	$\sigma^2_{belief} > \sigma^2_{posterior}$

ROPE (Region of Practical Equivalence) 检验：将点零假设转换为区间零假设，评估后验均值/标准差落在 ROPE 内的后验概率，避免将"不精确信念的精确估计"误判为偏差。

三、实验设计

3.1 基本任务

被试: 122名 Georgia State University 本科生
激励: 每人 $5 参与费 + 信念引出任务与彩票任务的真实支付
刺激物: 含100个蓝色和橙色球的罐，有放回抽样
信念引出: 将 $[0,1]$ 划分为10个区间（0-10%, 11-20%, ..., 91-100%），被试分配100个代币到各区间，基于QSR计算支付

3.2 处理组设计

每位被试观察4个独立样本（4个时期），累计观察40次抽取。三种处理（between-subjects）：

处理组	期1	期2	期3	期4	设计意图
A (前装)	28	4	4	4	期1后验信息量大
B (均衡)	16	8	8	8	中等信息量（对照组）
C (后装)	4	12	12	12	期1后验信息量小

5个实验场次，蓝球真实比例分别为 0.77, 0.23, 0.63, 0.37, 0.15
每次抽样后引出完整信念分布
实验结束后揭示真实罐组成

3.3 关键设计特征

后验分布对每个被试-每期精确可计算（已知先验 + 已知样本）
偏差与信心的评估相对于个体特定后验，而非总体参数
采用动画虚拟手从罐中抽球，增强DGP可信度
同时包含风险偏好引出任务（50道二元彩票选择题）

四、主要实验结果

4.1 动态更新路径（核心发现）

时期	偏差 (Bias)	信心 (Confidence)	整体校准
期1	显著有偏（均值高于后验）	欠自信（方差远大于后验方差）	校准很差
期2	接近无偏	适当自信（方差接近后验方差）	校准良好
期3	接近无偏	过度自信（方差小于后验方差）	均值对但信心过多
期4	接近无偏	过度自信（方差显著小于后验方差）	均值对但信心过多

关键洞察: 结论取决于"何时看数据"。仅看期1会得出"有偏且欠自信"；仅看期2会得出"贝叶斯校准良好"；看完期3-4则发现"无偏但过度自信"。

4.2 ROPE 检验结果

均值 ROPE: 期2-4中，在10%邻域的ROPE下，证据支持信念均值与后验均值一致
标准差 ROPE: 期1中标准差偏离（欠自信）；期2中25% ROPE下接受；期3-4中所有ROPE均拒绝（过度自信）
联合 ROPE（均值 + 标准差）: 仅期2在30%以上ROPE时证据支持与贝叶斯后验一致

4.3 信息前装效应

期1: 后装组（小样本4次）的信念方差反而小于其后验的预测值（相对于均衡对照组）
期2: 处理组对标准差偏离无显著差异
期3-4: 前装和后装组倾向于比均衡对照组有略高方差，但总体行为均为贝叶斯过度自信
信息处理对偏差（均值偏离）在各期均无显著影响

4.4 人口统计学效应

总体上人口统计学变量无显著影响，表明上述动态模式是普遍行为规律
例外: 青少年、大三和大四学生的置信区间更宽；商科专业学生方差更小（期1校准更好，但期3-4过度自信更严重）

五、与文献的关系

5.1 过度自信的三张面孔

定义	含义	与本文关系
Overestimation	高估自己的绝对能力/表现	实质上是偏差的度量，非信心度量
Overplacement	高估自己相对他人的排名	实质上是偏差的度量，非信心度量
Overprecision	信念精度过高（方差过低）	本文采用的定义 = 贝叶斯过度自信

本文论证：前两种定义若不知道个体信念的精度（分布），则无法判断其统计显著性。只有引出完整分布、评估overprecision，才能真正识别过度自信。

5.2 经典设计的局限

研究	局限
Grether (1980, 1992)	仅引出二元事件概率，无法考察信心
Griffin & Tversky (1992)	"信心"实际指主观概率的高低（即偏差），非分布方差
Gigerenzer & Hoffrage (1995)	关注二元事件偏差（自然频率 vs 概率格式），不涉及信心
Eil & Rao (2011)	引出了信念分布，但仅比较分布均值，未评估方差

六、方法论启示

分布 vs 点估计: 仅引出主观概率点估计无法区分偏差与信心，必须引出完整信念分布
个体特定基准: 信心必须相对于个体面临的特定后验来定义，而非相对于总体参数
ROPE 而非点零假设: 应使用ROPE避免"精确估计不精确信念"的推断陷阱
动态视角: 贝叶斯更新的行为一致性取决于观察的时间窗口，需要多轮更新才能揭示完整模式

维度2：理论模型

详见上文"理论框架与关键公式"部分。核心模型为：

数据生成过程：Binomial(N, θ)，θ为蓝球真实比例
共轭先验：Beta(a, b)，扩散先验 a=b=1
贝叶斯后验更新：a' = a + y, b' = b + N - y
信念引出：QSR支付函数 $S = \alpha + \beta[2r_k - \sum_i (r_i)^2]$
个体特定基准：每个被试每期的贝叶斯后验分布（均值、方差）作为评估其信念的基准

维度3：核心发现

详见上文"主要实验结果"部分。核心结果可总结为：

动态校准路径：期1有偏且欠自信→期2接近无偏且适当自信→期3-4无偏但过度自信。
ROPE检验：均值在期2-4一致；标准差在期1偏差（欠自信）、期2接受、期3-4拒绝（过度自信）。
信息处理无显著效应：前装/均衡/后装三种处理对偏差无显著差异，对信心也无显著影响（除期1后装组方差反小于预测）。
人口学异质性有限：商科学生方差更小（期1校准更好但期3-4过度自信更严重），其他人口学变量基本无影响。

维度4：变量概览

关键自变量（实验处理）：

信息处理类型：A（前装：28-4-4-4）/ B（均衡：16-8-8-8）/ C（后装：4-12-12-12），between-subjects
抽样期数 t = 1, 2, 3, 4
5个场次的真实蓝球比例：θ ∈ {0.77, 0.23, 0.63, 0.37, 0.15}

关键因变量：

主观信念分布的均值 $\mu_{belief, i, t}$
主观信念分布的标准差 $\sigma_{belief, i, t}$
贝叶斯偏差： $\mu_{belief} - \mu_{posterior}$
贝叶斯过度自信指标： $\sigma_{posterior} - \sigma_{belief}$ （正值=过度自信）
ROPE通过/不通过判断（不同邻域宽度）

关键参数：

QSR： $\alpha, \beta$ 缩放参数
区间数 K = 10
代币数 100
后验Beta分布参数：a, b（每被试每期更新）
ROPE邻域宽度：5%、10%、25%、30%等

控制变量：

风险偏好（通过50道二元彩票引出）
人口学：年龄、年级、专业（商科 vs 非商科）
性别、种族

维度5：局限性

样本规模有限：122名被试，5个场次，每处理组样本量不足以做精细的子组分析。
被试群体局限：仅美国本科生，外部效度受限；专业人士、金融市场参与者、跨文化样本是否表现相同动态尚不清楚。
任务环境的人为性：罐子-球的随机抽样虽透明可信，但与现实经济信念形成情境（基于历史经验、专家信号、社交信息）差异巨大。
共轭先验的强假设：Beta-Binomial框架要求被试的先验为Beta分布，与扩散先验一致；如果被试有特定的非Beta先验，对比基准可能失准。
激励相容性的局限：QSR只有在风险中性或近似风险中性时严格激励相容；尽管 Harrison_2017_ScoringRules_SubjectiveProbability 证明分布提取的均值受风险厌恶影响小，方差受影响的程度仍需进一步研究。
期数有限：仅观察4期，长期更新（如10期、20期）下"过度自信"是否进一步加深、是否反弹未知。
缺乏认知机制识别：发现了"过度自信"的现象，但未深入解释机制——是记忆扭曲、过度推断、还是认知 heuristics？
未与传统overconfidence测量对照：未对比overprecision与overestimation/overplacement在同一样本中的相关性。
工作论文阶段：尚未经过期刊同行评审完整周期。
对Cognitive Uncertainty无内生处理：与 Enke_Graeber_2023_CognitiveUncertainty 的认知不确定性框架未做整合。

维度6：与其他文献的关系

信念分布提取的方法论基础： 本文与 Harrison_2017_ScoringRules_SubjectiveProbability 同源，使用同一QSR-K区间分布提取方法。本文进一步将该方法应用于贝叶斯一致性检验，将方法论贡献转化为实质性行为发现。

贝叶斯更新的传统检验： Grether (1980, 1992) 是检验贝叶斯法则的经典文献，但仅限于二元事件（无法独立考察信心）。 Holt_2009_BayesianUpdating 也属此类。本文首次将检验扩展到分布层面，区分偏差与信心。

信念更新偏误： 本文与 Eil_Rao_2011_GoodNewsBadNews_AsymmetricProcessing 的good news/bad news框架对话——后者提取了信念分布但只比较均值。本文方法允许同时检验均值和方差，是该领域的方法论升级。 Augenblick_Lazarus_Thaler_2025_Overinference_Underinference 等关于overinference/underinference的研究本质上是关于"信号权重"的偏差检验，本文提供了正交维度的"信心"检验。

过度自信的多重定义： 本文澄清了Moore & Healy (2008) 关于overestimation/overplacement/overprecision三种过度自信定义的关系。本文论证：前两种本质上是均值偏差，唯有overprecision是信念精度的独立维度。 Benoit_2011_ApparentOverconfidence 也对此有相关讨论。

过度自信与金融市场： 过度自信被视为众多金融异象的核心解释（如 Daniel_Hirshleifer_2015_Overconfident_Returns_Trading、 Odean_Volume_Overconfidence、 Barber_Odean_BoysWillBeBoys_Gender_Overconfidence）。本文为这些应用提供了更严格的overprecision测量基础。

Bayesian Overconfidence的相关测量： BoschRosa_Overprecision_IrrationalInattention 探讨overprecision与rational inattention的关系。 Amelio_2022_CognitiveUncertainty_Overconfidence 研究Cognitive Uncertainty与overconfidence的关系。本文提供了量化overprecision的实验基准。

与认知不确定性框架的联系： Enke_Graeber_2023_CognitiveUncertainty 提出认知不确定性概念。本文的"贝叶斯欠自信→过度自信"动态可与认知不确定性的演化关联（早期不确定性高，后期低于贝叶斯）。

信念测量综述： Wang_Zhang_2020_BeliefElicitation_Methods 综述了各类信念引出方法； Canen_2022_BeliefElicitation_Incentives 探讨了激励对信念引出的影响。本文具体落实了QSR分布提取在贝叶斯检验中的应用。

维度7：可拓展的研究方向

过度自信的认知机制：将"贝叶斯过度自信"的动态路径与认知机制（associative memory、selective attention、motivated reasoning）联系，研究为何信心会随时间从欠到过。
金融市场中的应用：在金融市场预期实验（如 Bossaerts_2004_AssetPricing_LargeScaleExperiment）中应用本文的overprecision测量，研究市场环境下信念精度的演化。
更长期更新的动态：拓展到10、20期甚至更长，研究"过度自信"是否进一步加深、是否反弹、是否存在长期均衡。
与overestimation的同时测量：在同一被试中同时测量overprecision与overestimation/overplacement，研究三者相关性与可分离性。
跨文化比较：在非WEIRD样本中复制实验，检验"动态校准路径"是否具有文化普遍性。
专业预测者：在金融分析师、专业预测者中复制实验，检验专业训练是否消除过度自信。
信号质量与信心校准：研究在噪声信号、模糊信号下信念精度的演化，与本文的"清洁信号"对比。
AI/LLM贝叶斯一致性：研究LLM agent在分布提取任务中的表现，比较其与人类的偏差/信心动态（参考 Bini_BehavioralEconomics_AI_LLMBiases）。
结构性估计：将信念分布数据用于结构性估计认知偏误模型（如 Cognitive Uncertainty、Sticky Expectations）的参数。
与情绪、偏好的交互：研究情绪状态、损失厌恶等如何影响overprecision的演化。

关键结论

过度自信应严格定义为"贝叶斯过度自信"（overprecision）：信念分布的方差显著小于贝叶斯后验方差。Overestimation与Overplacement本质上是均值偏差度量，无法独立识别"过度自信"现象。
贝叶斯一致性检验必须在分布层面进行：仅引出二元概率或分布点估计无法分离偏差与信心。完整的信念分布引出（结合QSR + Beta-Binomial共轭）是检验贝叶斯法则的金标准方法。
信念更新呈现动态校准路径：期1欠自信→期2良好校准→期3-4过度自信。结论高度依赖"何时观察"——单期数据可能给出截然不同的结论。这意味着已有过度自信文献中"过度自信"的稳健性可能取决于实验时长。
均值校准比方差校准更稳健：贝叶斯偏差（均值偏离）在期2后基本消失，而信心偏离（方差偏离）持续存在并演变。这暗示行为人对"中心倾向"较为忠实，但对"不确定性程度"系统性误判。
信息呈现顺序对信念精度无系统影响：前装、均衡、后装处理在多数期数下无显著差异，表明"贝叶斯过度自信"是稳健的行为规律而非信息呈现的伪影。
方法论意义重大：ROPE检验避免了"用精确点估计判断不精确信念"的统计陷阱，为行为经济学的贝叶斯检验提供了更稳健的统计推断框架。

Harrison_BeliefDistributions_BayesianOverconfidence

Belief Distributions, Bayes' Rule and Bayesian Overconfidence

一句话总结

研究问题

核心贡献

维度1：实验设计分析

基本信息

一、核心研究问题与贡献

研究问题

核心贡献

二、理论框架与关键公式

2.1 贝叶斯法则：从标量到分布

2.2 二项式-Beta共轭模型

2.3 二次评分规则 (QSR) 信念引出

2.4 偏差与信心的定义

三、实验设计

3.1 基本任务

3.2 处理组设计

3.3 关键设计特征

四、主要实验结果

4.1 动态更新路径（核心发现）

4.2 ROPE 检验结果

4.3 信息前装效应

4.4 人口统计学效应

五、与文献的关系

5.1 过度自信的三张面孔

5.2 经典设计的局限

六、方法论启示

标签

维度2：理论模型

维度3：核心发现

维度4：变量概览

维度5：局限性

维度6：与其他文献的关系

维度7：可拓展的研究方向

关键结论

🔗 链接到这篇笔记