The Inference-Forecast Gap in Belief Updating

元信息

作者: Tony Q. Fan (Stanford University), Yucheng Liang (Carnegie Mellon University), Cameron Peng (London School of Economics and Political Science)
年份: 2021
期刊/来源: Working Paper
关键词: Belief Updating, Inference, Forecast Revision, Overreaction, Underreaction, Heuristics, Representativeness, Extrapolation
DOI/链接: http://yuchengliang.com/iegap/instructions.pdf (实验界面)

一句话总结

通过被试内实验在同一信息环境下同时引出推断（inference）和预测修正（forecast revision）信念，发现存在显著的"推断-预测差距"：被试在推断状态时呈现不足反应（59.8% underreact），但在预测下期信号时呈现过度反应（49.5% overreact），由此调和了实验室不足推断与调查预测过度反应的看似矛盾的两大文献风格化事实。

研究问题

为什么经典bookbag-and-poker-chip实验中信念更新呈现不足反应（underinference），而宏观/金融调查预测文献中却普遍发现过度反应（overreaction）？
在同一信息环境（DGP、信号、先验完全相同）下，将信念引出方式从"推断底层状态"改为"预测下期信号"，被试的更新行为是否会系统性变化？
如果存在"推断-预测差距"，其背后的认知机制是什么？被试是否使用代表性启发式（representativeness）、朴素外推（naive extrapolation）等简化策略来回答预测问题，而非通过严格的"先推断、再用LIE"两步程序？

核心贡献

提出新概念"推断-预测差距"（Inference-Forecast Gap）：首次在同一被试、同一信号实现下系统比较推断与预测修正中的信念更新，发现两类任务系统性产生方向相反的偏误
桥接两大文献的看似矛盾：将经典心理学/实验经济学中的不足推断（Phillips & Edwards 1966; Benjamin 2019）与宏观/金融调查预测中的过度反应（Greenwood & Shleifer 2014; Bordalo et al. 2020）放入统一框架
识别三种行为模式：non-update（不更新）、exact representativeness（精确代表性）、naive extrapolation（朴素外推），并量化各模式在两类任务中的相对流行度，揭示"代表性"与"外推"是预测修正过度反应的主要驱动力
系统排除替代解释：用Cross-variable Forecast、Binary Signal、Nudge、Obvious Connection 4个额外处理组排除了信号-结果相似性、感知信号自相关、计算复杂性、LIE实施错误等竞争解释
理论模型建设的启示：表明非贝叶斯更新模型必须区分推断过程与预测修正过程，二者不能用同一启发式建模
方法论贡献：建立了"配对推断-预测"实验范式，可推广到其他信念偏误研究

维度1：实验设计分析

核心研究问题

个体对经济变量的预测（forecasts）普遍呈现对新闻的过度反应（overreaction），但实验室中的信念更新实验通常发现对信号的不足推断（underinference）。本文通过实验将这两种看似矛盾的现象统一起来，提出信念更新行为因任务类型（推断 vs. 预测修正）而异。

实验任务详细流程

整体架构: 实验基于经典的"bookbag-and-poker-chip"范式，但以经济术语重新框架。采用被试内设计（within-subject），每位被试在相同的信息环境下同时完成推断任务和预测修正任务。Baseline处理包含五个部分（Parts），每部分包含8轮问题。

信息环境（数据生成过程，DGP）:

每轮中，有一个包含20家公司的"池"（pool）。每家公司的状态 $\theta$ 为 Good (G) 或 Bad (B)
被试不知道抽中公司的真实状态，但被告知池中G和B公司的组成比例（即先验 $Pr(G)$ ）
公司生成信号 $s_t$ ，框架为公司的月度股价增长（stock price growth）
信号的条件分布：Good公司的信号 ~ i.i.d. $N(100, \sigma^2)$ ；Bad公司的信号 ~ i.i.d. $N(0, \sigma^2)$
正态分布在实际实现中被离散化为10的倍数，并在两端截断
8种DGP参数组合（Table 2）： $Pr(G)$ 取 {50%, 50%, 50%, 50%, 50%, 50%, 80%, 20%}， $\sigma$ 取 {50, 60, 70, 80, 90, 100, 100, 100}

五个部分的具体流程:

部分	名称	是否展示信号	引出的信念	说明
1	Inference Prior	否	$Pr(\theta)$	测试被试能否正确形成先验信念
2	Inference	是	$Pr(\theta \mid s_0)$	核心推断任务：观察信号后更新对状态的信念
3	Forecast Prior	否	$\mathbb{E}(s_1)$	测试被试能否正确形成关于下期信号的先验预期
4	Forecast Revision	是	$\mathbb{E}(s_1 \mid s_0)$	核心预测修正任务：观察信号后更新对下期结果的预期
5	Expectation Formation	否	$\mathbb{E}(s_1)$	与Part 3类似，但公司池的组成由被试自己在Part 2中报告的后验信念内生决定

关键设计特征:

配对比较（Apples-to-apples comparison）: 对于同一被试，Inference和Forecast Revision中对应轮次的信号实现（signal realization）完全相同，确保两个任务在相同信息环境下直接可比
无推断-预测差距条件（No inference-forecast gap condition）: 由迭代期望定律（LIE）， $\mathbb{E}(s_1 \mid s_0) = Pr(G \mid s_0) \times 100$ 。即理论上，预测修正答案应等于推断答案乘以100（去掉百分号）
最小等待时间: 被试需在每页停留至少8秒后方可输入答案，防止快速点击行为
随机化: (a) 每部分内8种DGP的呈现顺序随机化；(b) 五个部分的顺序随机化（但要求先验在后验之前引出，且Expectation Formation在Inference之后），产生三种可能的部分顺序：12345、12534、34125
理解力测试: 指令结束后被试需回答一组理解力问题，测试其对DGP、激励结构和两个关键公式的理解，全部正确方可继续

指令设计:

详细解释DGP：强调公司状态跨月不变，信号在条件于状态后i.i.d.（明确警告信号非自相关）
用示例DGP图文并茂地展示离散化正态分布（Figure 2），突出条件均值（0和100）以及信号高于50为好消息的性质
提供两个显式公式：(1) $Pr(G) = \frac{\text{Good公司数量}}{20}$ ；(2) $\mathbb{E}(s) = Pr(G) \times 100$
不提及或暗示任何特定的信念更新规则

激励机制:

基础报酬5美元
绩效奖金：实验结束后随机选取一轮，若答案等于理性基准则获得5美元奖金；否则获奖概率随答案与基准差的平方递减： $\max\{0, (100 - (p-q)^2)\}\%$
平均总报酬7.15美元，平均耗时约30分钟

被试信息:

Baseline处理：通过Prolific平台招募202名美国被试（完成100+任务、批准率>=99%）
120人信号框架为"月度收入增长"，82人框架为"月度股价增长"
40人被问对"上期"信号的预期（而非"下期"）
部分顺序分布：72人走12345顺序，73人走12534，57人走34125

额外处理组（Additional Treatments）

处理组	N	与Baseline的差异	目的
Cross-variable Forecast	100	预测结果为不同变量（信号为股价增长时结果为收入增长，反之亦然）；结果由状态完全决定（Good=100, Bad=0）	排除信号-结果相似性、分布差异、感知的信号自相关等替代解释
Binary Signal	140	信号为二元（股价上涨/下跌）；预测问题询问概率分布 $Pr(s_1)$ 而非期望值	在不同信号分布下验证稳健性；更接近经典bookbag-and-poker-chip设计
Nudge	99	在展示信号的部分中，先引出推断答案，再在同一页面引出预测修正答案（推断答案仍可见）	测试差距是否源于infer-then-LIE程序的实施错误（将两步简化为一步）
Obvious Connection	30	预测结果为公司收入的方向变化（Up if G, Down if B）；预测问题询问概率分布	使推断与预测修正之间的概念联系变得"显而易见"（两者本质上问的是同一事件）

分析方法

三分类法: 将每个答案分类为 Near-rational（与理性基准差距<=2.5）、Overreact（更新幅度超过理性更新>2.5）或 Underreact（更新幅度不足理性更新>2.5）
平均更新量比较: 比较Inference和Forecast Revision中信念从先验向信号方向移动的平均幅度
行为模式识别: 识别答案分布中的聚集点，定义三种典型行为模式

核心实验结果

Baseline处理（N=202, Obs=1480，排除信号=50的观测）:

	Underreact	Near-rational	Overreact	平均更新量
Inference	59.8%	15.0%	25.2%	15.1 (0.8)
Forecast Revision	43.1%	7.4%	49.5%	29.9 (2.3)
Rational基准				23.4 (0.3)

Inference中不足反应占主导（59.8%），复制了经典bookbag-and-poker-chip文献的风格化事实
Forecast Revision中过度反应翻转为主导（49.5% > 43.1%），平均更新量（29.9）显著超过理性基准（23.4）
差距在所有8种DGP、不同信号强度、不同子样本中均稳健存在

Cross-variable Forecast（N=100）: 差距进一步扩大（Inference过度反应21.1% vs. Forecast Revision过度反应50.7%），排除了信号-结果相似性和感知的信号自相关等解释

Binary Signal（N=140）: 差距持续存在（Inference过度反应18.9% vs. Forecast Revision过度反应38.4%），尽管预测修正答案平均不再呈过度反应

Nudge（N=99）: 差距甚至更大（Inference更新10.3 vs. Forecast Revision更新28.9），表明差距并非源于infer-then-LIE程序的实施错误

Obvious Connection（N=30）: 差距几乎完全消失（Inference更新12.5 vs. Forecast Revision更新11.9），两部分均呈现不足反应模式

维度2：理论模型

基准理论框架

贝叶斯推断基准: 对于推断问题，理性基准由贝叶斯规则给出：
$ $Pr^{Rational}(G \mid s_0) = \frac{Pr(G) \cdot Pr(s_0 \mid G)}{Pr(G) \cdot Pr(s_0 \mid G) + Pr(B) \cdot Pr(s_0 \mid B)}$ $

迭代期望定律（LIE）: 对于预测修正问题，理性基准通过对理性推断答案应用LIE得出：
$ $\mathbb{E}^{Rational}(s_1 \mid s_0) = Pr^{Rational}(G \mid s_0) \times 100$ $

无推断-预测差距条件: $\mathbb{E}(s_1 \mid s_0) = Pr(G \mid s_0) \times 100$ 。这意味着如果被试的推断答案和预测修正答案同时满足此条件，则两者之间不存在差距——无论推断本身是否符合贝叶斯规则。

标准决策程序（Infer-then-LIE）

解决预测修正问题的标准两步程序：

先像推断问题一样更新对状态的信念（使用相同的、可能非贝叶斯的规则）
然后用LIE将后验信念转化为对下期结果的预期

若被试正确执行此程序，则不会出现推断-预测差距。差距的存在表明被试要么在执行此程序时犯了系统性错误，要么根本不使用此程序。

三种行为模式（简化启发式）

Non-update（不更新）: 后验等于先验，即完全忽略信号。在Inference中占29.9%，在Forecast Revision中占25.1%
Exact Representativeness（精确代表性）: 信号 $s_0 > 50$ 时回答100， $s_0 < 50$ 时回答0。被试表现为100%确定处于代表性状态（与信号方向一致的状态），仅基于该状态的条件均值作答。在Inference中仅3.9%，在Forecast Revision中达20.1%。与Kahneman和Tversky（1972）的代表性启发式一致
Naive Extrapolation（朴素外推）: 预测修正答案等于已实现信号的面值 $s_0$ 。被试直接将过去实现作为未来预期。在Inference中仅3.3%，在Forecast Revision中达10.3%。与外推式预期形成文献（Barberis et al., 2015, 2018）一致

属性替代理论（Attribute Substitution）

作者援引Kahneman和Frederick（2002）的属性替代理论来解释为何不同启发式在两类任务中的流行度不同：

当面对复杂问题时，人们倾向于用一个相关但更容易回答的问题来替代
Exact representativeness在Forecast Revision中更流行: 因为"代表性状态下的条件期望值"概念上更接近"条件于信号的结果预期"（都是关于结果的值），但与"状态概率"（推断问题所问的）概念差异较大
Naive extrapolation在Forecast Revision中更流行: 因为"过去实现值"概念上更接近"未来结果"而非"底层状态概率"
Non-update在两类任务中都流行: 因为先验信念与后验信念概念上相似，无论是状态概率还是结果预期

关键排除的替代解释

信号-结果相似性: Cross-variable Forecast处理中信号和结果是不同变量，差距仍存在
感知的信号自相关（热手偏误）: Cross-variable Forecast中结果由状态完全决定而非信号分布，排除了信号自相关感知的干扰
计算复杂性: 在实验设计下，推断和预测修正的计算复杂度几乎相同；Nudge处理将两步简化为一步也未消除差距
分布差异的差异诊断性: Cross-variable Forecast中信号对状态和结果的诊断性相同
期望形成错误: Nudge处理中Expectation Formation部分显示被试基本能正确应用LIE，LIE错误仅解释约18%的差距

维度3：核心发现

论文定位

本文桥接了两大看似矛盾的文献：

实验室信念更新实验: 经典bookbag-and-poker-chip范式下，被试在推断底层状态时普遍呈现不足反应（conservatism/underinference）（Phillips and Edwards, 1966; Benjamin, 2019）
调查预测文献: 个体在修正对经济变量（股票收益、宏观指标等）的预测时普遍呈现过度反应（Greenwood and Shleifer, 2014; Bordalo et al., 2020; Afrouzi et al., 2020）

本文提出的关键洞见：信念更新偏误的方向取决于所引出的信念类型（推断底层状态 vs. 预测未来结果），而非仅仅取决于信息环境或数据生成过程。

与相关文献的具体联系

Representativeness heuristic (Kahneman and Tversky, 1972; Bordalo et al., 2018): 精确代表性模式与代表性启发式一致，但本文发现该启发式主要出现在预测修正而非推断任务中
Extrapolative expectations (Barberis et al., 2015, 2018; Greenwood and Shleifer, 2014): 朴素外推模式与外推式预期形成一致，为调查预测中的过度外推提供了实验室证据
Cognitive uncertainty (Enke and Graeber, 2020): 本文的发现与认知不确定性和简化心理模型在解释信念更新偏误中的作用一致（Enke and Zimmermann, 2019; Enke, 2020）
Hot-hand bias (Gilovich et al., 1985; Tversky and Gilovich, 1989): 本文的过度反应结果与热手偏误表面相似，但有关键区别：(a) 过度反应仅在一个信号后即出现；(b) Cross-variable Forecast处理中结果与信号不同，排除了信号自相关感知的解释
Diagnostic/predictive reasoning asymmetry (Tversky and Kahneman, 1980; Fernbach et al., 2011): 心理学文献中诊断推理（P(Cause|Effect)）与预测推理（P(Effect|Cause)）的不对称性与本文发现相关，但本文中预测修正任务并非简单的预测推理

维度5：局限性

对金融与宏观经济学的启示

调和矛盾的风格化事实: 金融市场中的过度波动和泡沫（overreaction）与盈余公告后漂移和宏观预期的粘性（underreaction）可能共存而不矛盾——关键在于经济行为体是在进行推断还是预测修正
模型建设的启示: 大多数现有非贝叶斯更新理论不允许更新偏误依赖于信念类型。本文结果表明，模型需要区分推断过程和预测修正过程，允许两者使用不同的启发式
预测过度反应的微观基础: 本文为调查预测中广泛观察到的过度反应提供了新的行为机制解释——人们在预测时使用代表性启发式和朴素外推等简化策略，而非通过推断底层状态再应用LIE的标准程序

主要贡献

首次在同一信息环境下实验性地比较推断和预测修正中的信念更新行为
发现并命名了"推断-预测差距"（inference-forecast gap）：推断中不足反应，预测修正中过度反应
识别了三种驱动差距的行为模式（non-update、exact representativeness、naive extrapolation）
通过多个处理组系统排除替代解释，将差距归因于人们未能认识推断与预测修正之间的概念联系

局限性

样本代表性: Prolific平台被试为美国在线被试，与专业预测者、投资者等现实中的预测主体存在差异
生态效度: bookbag-and-poker-chip范式的实验任务与现实经济决策环境有较大距离。现实中DGP更复杂（状态可能时变、结果可能条件于状态仍与历史信号相关、DGP本身可能未知）
Obvious Connection样本量较小: 仅30名被试，统计效力有限
缺乏形式化理论模型: 作者承认论文未提出形式化模型来解释推断-预测差距，仅提供基于属性替代的推测性解释
单信号设计: 每轮仅展示一个信号实现，未考察多信号序列下差距是否持续或演变
未完全排除所有机制: 虽然排除了多种替代解释，但差距的根本认知机制（为什么人们不认识推断与预测的概念联系）仍需进一步研究

维度4：变量概览

自变量（实验操纵）

任务类型（被试内）:

Inference task：引出 $Pr(\theta=G \mid s_0)$ ，0-100%
Forecast Revision task：引出 $\mathbb{E}(s_1 \mid s_0)$ ，0-100数值

DGP参数（被试内，8种组合）:

先验 $Pr(G) \in \{20\%, 50\%, 80\%\}$
信号噪声 $\sigma \in \{50, 60, 70, 80, 90, 100\}$
信号实现 $s_0$ 离散化为10的倍数

处理组（被试间）:

Baseline (N=202)
Cross-variable Forecast (N=100)：信号与预测结果为不同变量
Binary Signal (N=140)：二元信号 + 概率分布预测
Nudge (N=99)：先报推断、再报预测，强制infer-then-LIE
Obvious Connection (N=30)：使两任务的概念联系显而易见

信号框架:

月度收入增长 vs. 月度股价增长
上期 vs. 下期信号

因变量

类别	变量	取值范围
推断信念	报告的 $Pr(G)$	0-100%
预测信念	报告的 $\mathbb{E}(s_1 \mid s_0)$	0-100
偏差程度	与贝叶斯/LIE基准的差距（绝对值与符号）	实数
三分类	Underreact / Near-rational / Overreact（更新幅度差距>2.5判定）	类别
行为模式占比	Non-update / Exact representativeness / Naive extrapolation	比例

关键参数与结构

总样本：约570名Prolific美国被试
平均报酬：$7.15，平均耗时30分钟
激励：$5 base + 二次评分规则（quadratic scoring rule，最高+$5）
强制等待：每页≥8秒
理解力测试：必须全对方可继续
部分顺序：3种顺序之一随机分配
主要分析：分类频率、平均更新量比较、与理性基准的偏差

维度6：与其他文献的关系

桥接的两大文献传统

心理学/实验经济学                       宏观/金融预测调查
（推断任务）                            （预测修正任务）
Phillips & Edwards (1966)              Greenwood & Shleifer (2014)
[Benjamin_2019_BaseRateNeglect_Foundations](/n/papers/Benjamin_2019_BaseRateNeglect_Foundations)   Bordalo et al. (2020)
经典发现：UNDERINFERENCE/conservatism     经典发现：OVERREACTION
        \                              /
         \                            /
          \   本文：Inference-Forecast Gap
                  桥接两大文献

直接对话与启发式相关文献

代表性启发式：Kahneman and Tversky (1972), Bordalo, Coffman, Gennaioli, Shleifer (2018) "Diagnostic expectations" — 本文将"精确代表性"识别为预测修正过度反应的主要模式
外推预期：Barberis_2015_XCAPM_Extrapolative、AssetPricing_2022_ReturnExtrapolation、Greenwood & Shleifer (2014) — 本文为外推预期提供了实验室微观证据
认知不确定性：Enke_Graeber_2023_CognitiveUncertainty — 与本文的"简化心理模型"解释互补
关联记忆：Enke_Schwerter_2020_AssociativeMemory_BeliefFormation — 提供另一种过度反应机制
强弱信号差异：Augenblick_Lazarus_Thaler_2025_Overinference_Underinference — 同一信息任务下不足/过度反应可由信号强度调节，与本文的"任务类型"维度互补
属性替代：Kahneman and Frederick (2002) — 本文用此理论解释为何不同启发式在两类任务中的流行度不同

独特贡献

首创"配对推断-预测"实验范式：在同一被试、同一DGP、同一信号实现下直接比较两类任务
行为模式的可识别性：通过设计使代表性、外推等启发式在数据中产生明确的"指纹"（特定答案值聚集）
多重处理组的因果排除：4个额外处理系统排除了至少6种替代解释

研究主题标签

#belief_updating #inference_forecast_gap #representativeness #naive_extrapolation #overreaction #underinference #heuristics #experimental_economics

维度7：可拓展的研究方向

多信号序列设计：扩展到多期信号下的推断-预测差距演变，考察是否存在学习或差距收敛
专业预测者样本：在分析师、基金经理、央行预测员等专业群体中复制实验，检验差距是否依赖于专业训练
市场层面验证：将"推断-预测差距"映射到真实金融市场——是否盈余预测中过度反应、状态推断中保守，导致股价对信息的混合反应？
理论模型化：构建允许同一信号在两类任务中产生不同更新偏差的形式化模型，潜在路径包括：（a）双系统模型（System 1处理预测、System 2处理推断）；（b）属性替代的形式化；（c）信念维度依赖的认知折扣
与情绪/动机交互：在收益vs.损失情境下检验差距是否因动机性信念而放大或缩小
去偏干预：测试简单干预（如教学LIE应用、提示推断与预测的等价性）能否消除差距，类似Obvious Connection处理
跨文化复制：在非WEIRD样本中验证差距的普遍性
与AI预测的比较：让被试观察AI输出的推断或预测信念，研究人类是否信任不同任务下的AI建议；可对接Bianchi_2026_HumanRobot_InvestmentDecisions
神经/认知机制：用反应时间、眼动数据揭示被试在两类任务中的认知过程差异
结构估计：估计三种行为模式（non-update、representativeness、extrapolation）的混合权重与个体异质性

关键结论

同一信息环境下，信念更新偏差方向取决于任务类型：被试推断状态时不足反应（59.8% underreact），预测下期结果时过度反应（49.5% overreact），平均更新量从15.1（推断）跳到29.9（预测），跨越理性基准23.4
差距源于不同启发式的相对流行度：精确代表性（exact representativeness）从推断的3.9%飙升到预测的20.1%；朴素外推（naive extrapolation）从3.3%升至10.3%；这两种模式集中出现在预测修正中，是过度反应的主要来源
被试不使用infer-then-LIE的标准两步程序：Nudge处理（强制先推断后预测）反而扩大了差距，证明差距不是源于程序实施错误，而是源于被试根本不通过先推断再应用LIE这一程序回答预测问题
概念联系一旦清晰，差距消失：Obvious Connection处理中，当推断与预测在概念上明显等价时，两任务的更新模式趋同（均不足反应），证实差距源于人们未能认识两类任务的内在联系
金融经济学含义：股市过度波动与盈余漂移、宏观预期粘性可共存——前者是预测过度反应（外推/代表性），后者是状态推断不足反应（保守）；现有非贝叶斯更新模型需更新以容纳这种依赖于信念类型的偏差
对预测调查文献的启示：调查中观察到的过度反应可能不是"预测过度反应"那么简单，而是"被试在做预测时使用与做推断时不同的认知策略"——研究者需谨慎区分所引出信念的类型

Fan_InferenceForecastGap_BeliefUpdating