Harrison_BeliefDistributions_BayesianOverconfidence
Belief Distributions, Bayes' Rule and Bayesian Overconfidence
一句话总结
通过引出连续事件的完整主观信念分布(而非二元概率),首次分别检验贝叶斯更新中的"偏差"(均值偏离)与"信心"(方差偏离),发现信念更新呈现"初期欠自信→中期校准良好→后期过度自信"的动态路径,并将"贝叶斯过度自信(overprecision)"作为过度自信的严格定义。
研究问题
(1) 在连续事件的信念更新中,主观信念分布的均值是否符合贝叶斯后验均值(偏差检验)?(2) 主观信念分布的方差是否符合贝叶斯后验方差(信心检验)?(3) "过度自信"的不同定义(overestimation, overplacement, overprecision)的本质区别是什么?(4) 信息呈现的时间顺序(前装/均衡/后装)是否影响贝叶斯一致性?
核心贡献
- 概念创新:明确区分"偏差"(均值层面)与"信心"(方差层面)两种贝叶斯一致性维度,将过度自信严格定义为"贝叶斯过度自信"(信念方差显著小于贝叶斯后验方差,即overprecision)。
- 方法论创新:首次提供贝叶斯法则在连续事件上的激励相容行为检验框架,将QSR分布提取与Beta-Binomial共轭模型结合。
- 统计推断创新:引入ROPE(Region of Practical Equivalence)检验,避免"对不精确信念做精确点估计"的推断陷阱。
- 核心实证发现:揭示动态更新路径——期1欠自信、期2良好校准、期3-4过度自信。结论严重依赖"何时观察",单期数据可能误导。
- 过度自信文献的统一:阐明Overestimation与Overplacement本质上是偏差度量,唯有Overprecision可独立于偏差识别——为heterogeneous over-confidence literature提供统一框架。
- 信息呈现顺序的检验:通过前装/均衡/后装三种处理设计,检验信息时序对信念精度的影响。
维度1:实验设计分析
基本信息
- 作者: Glenn W. Harrison, J. Todd Swarthout
- 年份: 2022 (May)
- 期刊/来源: Working Paper, Georgia State University
- JEL: D84, D81, C11
- 关键词: Bayes' Rule, Overconfidence, Behavior
一、核心研究问题与贡献
研究问题
以往对贝叶斯法则的行为检验仅关注偏差 (bias),即比较主观概率的点估计与贝叶斯后验概率的差异,且仅限于二元事件。本文首次将检验扩展到完整的信念分布,从而能同时评估:
- 偏差 (Bias): 主观信念分布的均值是否偏离贝叶斯后验均值
- 信心 (Confidence): 主观信念分布的方差是否偏离贝叶斯后验方差
核心贡献
- 提出贝叶斯过度自信 (Bayesian Overconfidence) 的严格定义:个体信念分布的方差显著小于贝叶斯后验方差(即信念过于精确/overprecision)
- 首次提供了贝叶斯法则在连续事件上的激励相容的行为检验
- 揭示信念更新的动态路径:初期欠自信 --> 中期校准良好 --> 后期过度自信
- 阐明"过度自信"三种定义(overestimation, overplacement, overprecision)的关系,指出前两者本质上是偏差的度量
二、理论框架与关键公式
2.1 贝叶斯法则:从标量到分布
二元事件的贝叶斯法则(标量后验):
在此设定下,后验是单一概率值(标量),均值已知则方差已定,无法独立考察信心问题。
多事件的贝叶斯法则(分布后验):
当 A, A', A'' 被解释为离散随机变量的取值时,数据 B 会修正其概率质量函数,均值与方差可独立变化。推广到连续情形则产生具有独立均值和方差的后验分布。
2.2 二项式-Beta共轭模型
数据生成过程 (DGP):从含两种颜色球的罐中有放回抽样。
其中 \theta 为蓝球的真实比例,N_t 为第 t 期样本量,y_t 为抽出的蓝球数。
共轭先验:Beta 分布,参数 a, b。扩散先验设 a = b = 1。
后验更新规则:
多期累积更新:
Beta后验的均值 = a'/(a'+b'),方差 = a'b'/[(a'+b')^2(a'+b'+1)]。方差随样本量增大而缩小,这正是"贝叶斯信心"的来源。
2.3 二次评分规则 (QSR) 信念引出
将连续分布域划分为 K 个区间,被试报告每个区间 k 的概率 r_k(r_k \geq 0, \sum r_i = 1)。
支付函数(Matheson & Winkler, 1976):
其中 k 为真实值所在区间。\alpha 为固定禀赋,\beta 为缩放参数。
该规则为严格适当评分规则 (strictly proper scoring rule):风险中性的被试在如实报告主观概率时期望收益最大化。对于EUT个体,在实验中常见的风险厌恶水平下,QSR直接引出的信念"近似正确"。
2.4 偏差与信心的定义
| 维度 | 定义 | 检验方式 |
|---|---|---|
| 贝叶斯偏差 | 主观信念分布均值与后验均值的统计显著差异 | 比较 \mu_{belief} vs \mu_{posterior} |
| 贝叶斯过度自信 | 主观信念方差显著小于后验方差 | \sigma^2_{belief} < \sigma^2_{posterior} |
| 贝叶斯欠自信 | 主观信念方差显著大于后验方差 | \sigma^2_{belief} > \sigma^2_{posterior} |
ROPE (Region of Practical Equivalence) 检验:将点零假设转换为区间零假设,评估后验均值/标准差落在 ROPE 内的后验概率,避免将"不精确信念的精确估计"误判为偏差。
三、实验设计
3.1 基本任务
- 被试: 122名 Georgia State University 本科生
- 激励: 每人 $5 参与费 + 信念引出任务与彩票任务的真实支付
- 刺激物: 含100个蓝色和橙色球的罐,有放回抽样
- 信念引出: 将 [0,1] 划分为10个区间(0-10%, 11-20%, ..., 91-100%),被试分配100个代币到各区间,基于QSR计算支付
3.2 处理组设计
每位被试观察4个独立样本(4个时期),累计观察40次抽取。三种处理(between-subjects):
| 处理组 | 期1 | 期2 | 期3 | 期4 | 设计意图 |
|---|---|---|---|---|---|
| A (前装) | 28 | 4 | 4 | 4 | 期1后验信息量大 |
| B (均衡) | 16 | 8 | 8 | 8 | 中等信息量(对照组) |
| C (后装) | 4 | 12 | 12 | 12 | 期1后验信息量小 |
- 5个实验场次,蓝球真实比例分别为 0.77, 0.23, 0.63, 0.37, 0.15
- 每次抽样后引出完整信念分布
- 实验结束后揭示真实罐组成
3.3 关键设计特征
- 后验分布对每个被试-每期精确可计算(已知先验 + 已知样本)
- 偏差与信心的评估相对于个体特定后验,而非总体参数
- 采用动画虚拟手从罐中抽球,增强DGP可信度
- 同时包含风险偏好引出任务(50道二元彩票选择题)
四、主要实验结果
4.1 动态更新路径(核心发现)
| 时期 | 偏差 (Bias) | 信心 (Confidence) | 整体校准 |
|---|---|---|---|
| 期1 | 显著有偏(均值高于后验) | 欠自信(方差远大于后验方差) | 校准很差 |
| 期2 | 接近无偏 | 适当自信(方差接近后验方差) | 校准良好 |
| 期3 | 接近无偏 | 过度自信(方差小于后验方差) | 均值对但信心过多 |
| 期4 | 接近无偏 | 过度自信(方差显著小于后验方差) | 均值对但信心过多 |
关键洞察: 结论取决于"何时看数据"。仅看期1会得出"有偏且欠自信";仅看期2会得出"贝叶斯校准良好";看完期3-4则发现"无偏但过度自信"。
4.2 ROPE 检验结果
- 均值 ROPE: 期2-4中,在10%邻域的ROPE下,证据支持信念均值与后验均值一致
- 标准差 ROPE: 期1中标准差偏离(欠自信);期2中25% ROPE下接受;期3-4中所有ROPE均拒绝(过度自信)
- 联合 ROPE(均值 + 标准差): 仅期2在30%以上ROPE时证据支持与贝叶斯后验一致
4.3 信息前装效应
- 期1: 后装组(小样本4次)的信念方差反而小于其后验的预测值(相对于均衡对照组)
- 期2: 处理组对标准差偏离无显著差异
- 期3-4: 前装和后装组倾向于比均衡对照组有略高方差,但总体行为均为贝叶斯过度自信
- 信息处理对偏差(均值偏离)在各期均无显著影响
4.4 人口统计学效应
- 总体上人口统计学变量无显著影响,表明上述动态模式是普遍行为规律
- 例外: 青少年、大三和大四学生的置信区间更宽;商科专业学生方差更小(期1校准更好,但期3-4过度自信更严重)
五、与文献的关系
5.1 过度自信的三张面孔
| 定义 | 含义 | 与本文关系 |
|---|---|---|
| Overestimation | 高估自己的绝对能力/表现 | 实质上是偏差的度量,非信心度量 |
| Overplacement | 高估自己相对他人的排名 | 实质上是偏差的度量,非信心度量 |
| Overprecision | 信念精度过高(方差过低) | 本文采用的定义 = 贝叶斯过度自信 |
本文论证:前两种定义若不知道个体信念的精度(分布),则无法判断其统计显著性。只有引出完整分布、评估overprecision,才能真正识别过度自信。
5.2 经典设计的局限
| 研究 | 局限 |
|---|---|
| Grether (1980, 1992) | 仅引出二元事件概率,无法考察信心 |
| Griffin & Tversky (1992) | "信心"实际指主观概率的高低(即偏差),非分布方差 |
| Gigerenzer & Hoffrage (1995) | 关注二元事件偏差(自然频率 vs 概率格式),不涉及信心 |
| Eil & Rao (2011) | 引出了信念分布,但仅比较分布均值,未评估方差 |
六、方法论启示
- 分布 vs 点估计: 仅引出主观概率点估计无法区分偏差与信心,必须引出完整信念分布
- 个体特定基准: 信心必须相对于个体面临的特定后验来定义,而非相对于总体参数
- ROPE 而非点零假设: 应使用ROPE避免"精确估计不精确信念"的推断陷阱
- 动态视角: 贝叶斯更新的行为一致性取决于观察的时间窗口,需要多轮更新才能揭示完整模式
标签
#belief_updating #overconfidence #Bayes_rule #belief_distribution #overprecision #experiment #QSR #scoring_rule #Beta_distribution #ROPE
维度2:理论模型
详见上文"理论框架与关键公式"部分。核心模型为:
- 数据生成过程:Binomial(N, θ),θ为蓝球真实比例
- 共轭先验:Beta(a, b),扩散先验 a=b=1
- 贝叶斯后验更新:a' = a + y, b' = b + N - y
- 信念引出:QSR支付函数 S = \alpha + \beta[2r_k - \sum_i (r_i)^2]
- 个体特定基准:每个被试每期的贝叶斯后验分布(均值、方差)作为评估其信念的基准
维度3:核心发现
详见上文"主要实验结果"部分。核心结果可总结为:
- 动态校准路径:期1有偏且欠自信→期2接近无偏且适当自信→期3-4无偏但过度自信。
- ROPE检验:均值在期2-4一致;标准差在期1偏差(欠自信)、期2接受、期3-4拒绝(过度自信)。
- 信息处理无显著效应:前装/均衡/后装三种处理对偏差无显著差异,对信心也无显著影响(除期1后装组方差反小于预测)。
- 人口学异质性有限:商科学生方差更小(期1校准更好但期3-4过度自信更严重),其他人口学变量基本无影响。
维度4:变量概览
关键自变量(实验处理):
- 信息处理类型:A(前装:28-4-4-4)/ B(均衡:16-8-8-8)/ C(后装:4-12-12-12),between-subjects
- 抽样期数 t = 1, 2, 3, 4
- 5个场次的真实蓝球比例:θ ∈ {0.77, 0.23, 0.63, 0.37, 0.15}
关键因变量:
- 主观信念分布的均值 \mu_{belief, i, t}
- 主观信念分布的标准差 \sigma_{belief, i, t}
- 贝叶斯偏差:\mu_{belief} - \mu_{posterior}
- 贝叶斯过度自信指标:\sigma_{posterior} - \sigma_{belief}(正值=过度自信)
- ROPE通过/不通过判断(不同邻域宽度)
关键参数:
- QSR:\alpha, \beta 缩放参数
- 区间数 K = 10
- 代币数 100
- 后验Beta分布参数:a, b(每被试每期更新)
- ROPE邻域宽度:5%、10%、25%、30%等
控制变量:
- 风险偏好(通过50道二元彩票引出)
- 人口学:年龄、年级、专业(商科 vs 非商科)
- 性别、种族
维度5:局限性
- 样本规模有限:122名被试,5个场次,每处理组样本量不足以做精细的子组分析。
- 被试群体局限:仅美国本科生,外部效度受限;专业人士、金融市场参与者、跨文化样本是否表现相同动态尚不清楚。
- 任务环境的人为性:罐子-球的随机抽样虽透明可信,但与现实经济信念形成情境(基于历史经验、专家信号、社交信息)差异巨大。
- 共轭先验的强假设:Beta-Binomial框架要求被试的先验为Beta分布,与扩散先验一致;如果被试有特定的非Beta先验,对比基准可能失准。
- 激励相容性的局限:QSR只有在风险中性或近似风险中性时严格激励相容;尽管 Harrison_2017_ScoringRules_SubjectiveProbability 证明分布提取的均值受风险厌恶影响小,方差受影响的程度仍需进一步研究。
- 期数有限:仅观察4期,长期更新(如10期、20期)下"过度自信"是否进一步加深、是否反弹未知。
- 缺乏认知机制识别:发现了"过度自信"的现象,但未深入解释机制——是记忆扭曲、过度推断、还是认知 heuristics?
- 未与传统overconfidence测量对照:未对比overprecision与overestimation/overplacement在同一样本中的相关性。
- 工作论文阶段:尚未经过期刊同行评审完整周期。
- 对Cognitive Uncertainty无内生处理:与 Enke_Graeber_2023_CognitiveUncertainty 的认知不确定性框架未做整合。
维度6:与其他文献的关系
信念分布提取的方法论基础: 本文与 Harrison_2017_ScoringRules_SubjectiveProbability 同源,使用同一QSR-K区间分布提取方法。本文进一步将该方法应用于贝叶斯一致性检验,将方法论贡献转化为实质性行为发现。
贝叶斯更新的传统检验: Grether (1980, 1992) 是检验贝叶斯法则的经典文献,但仅限于二元事件(无法独立考察信心)。 Holt_2009_BayesianUpdating 也属此类。本文首次将检验扩展到分布层面,区分偏差与信心。
信念更新偏误: 本文与 Eil_Rao_2011_GoodNewsBadNews_AsymmetricProcessing 的good news/bad news框架对话——后者提取了信念分布但只比较均值。本文方法允许同时检验均值和方差,是该领域的方法论升级。 Augenblick_Lazarus_Thaler_2025_Overinference_Underinference 等关于overinference/underinference的研究本质上是关于"信号权重"的偏差检验,本文提供了正交维度的"信心"检验。
过度自信的多重定义: 本文澄清了Moore & Healy (2008) 关于overestimation/overplacement/overprecision三种过度自信定义的关系。本文论证:前两种本质上是均值偏差,唯有overprecision是信念精度的独立维度。 Benoit_2011_ApparentOverconfidence 也对此有相关讨论。
过度自信与金融市场: 过度自信被视为众多金融异象的核心解释(如 Daniel_Hirshleifer_2015_Overconfident_Returns_Trading、 Odean_Volume_Overconfidence、 Barber_Odean_BoysWillBeBoys_Gender_Overconfidence)。本文为这些应用提供了更严格的overprecision测量基础。
Bayesian Overconfidence的相关测量: BoschRosa_Overprecision_IrrationalInattention 探讨overprecision与rational inattention的关系。 Amelio_2022_CognitiveUncertainty_Overconfidence 研究Cognitive Uncertainty与overconfidence的关系。本文提供了量化overprecision的实验基准。
与认知不确定性框架的联系: Enke_Graeber_2023_CognitiveUncertainty 提出认知不确定性概念。本文的"贝叶斯欠自信→过度自信"动态可与认知不确定性的演化关联(早期不确定性高,后期低于贝叶斯)。
信念测量综述: Wang_Zhang_2020_BeliefElicitation_Methods 综述了各类信念引出方法; Canen_2022_BeliefElicitation_Incentives 探讨了激励对信念引出的影响。本文具体落实了QSR分布提取在贝叶斯检验中的应用。
维度7:可拓展的研究方向
- 过度自信的认知机制:将"贝叶斯过度自信"的动态路径与认知机制(associative memory、selective attention、motivated reasoning)联系,研究为何信心会随时间从欠到过。
- 金融市场中的应用:在金融市场预期实验(如 Bossaerts_2004_AssetPricing_LargeScaleExperiment)中应用本文的overprecision测量,研究市场环境下信念精度的演化。
- 更长期更新的动态:拓展到10、20期甚至更长,研究"过度自信"是否进一步加深、是否反弹、是否存在长期均衡。
- 与overestimation的同时测量:在同一被试中同时测量overprecision与overestimation/overplacement,研究三者相关性与可分离性。
- 跨文化比较:在非WEIRD样本中复制实验,检验"动态校准路径"是否具有文化普遍性。
- 专业预测者:在金融分析师、专业预测者中复制实验,检验专业训练是否消除过度自信。
- 信号质量与信心校准:研究在噪声信号、模糊信号下信念精度的演化,与本文的"清洁信号"对比。
- AI/LLM贝叶斯一致性:研究LLM agent在分布提取任务中的表现,比较其与人类的偏差/信心动态(参考 Bini_BehavioralEconomics_AI_LLMBiases)。
- 结构性估计:将信念分布数据用于结构性估计认知偏误模型(如 Cognitive Uncertainty、Sticky Expectations)的参数。
- 与情绪、偏好的交互:研究情绪状态、损失厌恶等如何影响overprecision的演化。
关键结论
- 过度自信应严格定义为"贝叶斯过度自信"(overprecision):信念分布的方差显著小于贝叶斯后验方差。Overestimation与Overplacement本质上是均值偏差度量,无法独立识别"过度自信"现象。
- 贝叶斯一致性检验必须在分布层面进行:仅引出二元概率或分布点估计无法分离偏差与信心。完整的信念分布引出(结合QSR + Beta-Binomial共轭)是检验贝叶斯法则的金标准方法。
- 信念更新呈现动态校准路径:期1欠自信→期2良好校准→期3-4过度自信。结论高度依赖"何时观察"——单期数据可能给出截然不同的结论。这意味着已有过度自信文献中"过度自信"的稳健性可能取决于实验时长。
- 均值校准比方差校准更稳健:贝叶斯偏差(均值偏离)在期2后基本消失,而信心偏离(方差偏离)持续存在并演变。这暗示行为人对"中心倾向"较为忠实,但对"不确定性程度"系统性误判。
- 信息呈现顺序对信念精度无系统影响:前装、均衡、后装处理在多数期数下无显著差异,表明"贝叶斯过度自信"是稳健的行为规律而非信息呈现的伪影。
- 方法论意义重大:ROPE检验避免了"用精确点估计判断不精确信念"的统计陷阱,为行为经济学的贝叶斯检验提供了更稳健的统计推断框架。