Overinference from Weak Signals and Underinference from Strong Signals*

Unknown (2025), The Quarterly Journal of Economics

摘要

When people receive new information, sometimes they revise their beliefs too much, and sometimes too little. We show that a key driver of whether people overinfer or underinfer is the strength of the information. Based on a model in which people know which direction to update in, but not exactly how much to update, we hypothesize that people will overinfer from weak signals and underinfer from strong signals. We then test this hypothesis across four different environments: abstract experiments, a naturalistic experiment, sports betting markets, and financial markets. In each environment, our consistent and robust finding is overinference from weak signals and underinference from strong signals. Our framework and findings can help harmonize apparently contradictory results from the experimental and empirical literatures.

Overinference from Weak Signals and Underinference from Strong Signals

Augenblick, Lazarus, & Thaler (2025), The Quarterly Journal of Economics, 335–401

一句话总结

人们在面对弱信号时过度推断、面对强信号时推断不足，这源于对信号强度的不完美感知——感知强度被"锚定"在某个中间水平，导致对真实强度的部分不敏感。

研究问题

本文要回答什么？ 当人们接收到新信息并更新信念时，究竟是过度反应还是反应不足？信号强度（signal strength）是否是决定过度/不足推断的关键调节因素？

为什么重要？ 实验文献普遍发现人们对信息反应不足（underreaction），但真实世界中资产价格的过度波动（excess volatility）又暗示过度反应（overreaction）。这一矛盾长期困扰行为经济学和金融学领域。本文提出一个统一框架：信号强度是关键调节变量——以往实验主要使用强信号（因此发现反应不足），而现实中弱信号更常见（因此表现为过度反应）。

核心贡献

理论贡献：提出一个通用模型——人们理解信号方向但不完美地估计信号强度，估计值向某个中间值收缩，由此从一组简单直觉假设推导出"弱信号过度推断、强信号推断不足"的命题（Proposition 1），存在唯一的切换点 S*。
实证贡献：在四类环境中（抽象实验 Study 1a/1b、自然实验 Study 2、体育博彩市场、S&P 500期权市场）一致性地验证了该假说，尤其填补了以往文献中弱信号区间的实证空白。
方法贡献：将 Augenblick & Rabin (2021) 的"movement vs. uncertainty reduction"检验框架推广，用于在无法直接观测贝叶斯基准的观测数据中检验过度/不足推断随信号强度变化的模式。
文献调和：统一解释了实验文献（主要发现反应不足）与金融市场文献（主要发现过度反应）之间的表面矛盾。

维度1：实验设计分析

Study 1a：抽象信念更新实验（2021年3月实施）

被试招募与筛选：通过 Prolific 平台招募，500名被试完成实验并通过注意力检查。

完整实验流程（逐屏）：

指导页面：被试被告知有两副牌，每副牌含 N 张卡片。一副标记为"Green"，另一副标记为"Purple"。每副牌由方块（Diamond）和黑桃（Spade）组成。Green 牌含 D₁ 张方块和 N−D₁ 张黑桃；Purple 牌含 D₂ 张方块和 N−D₂ 张黑桃。
主要Treatment（每轮）：
- 屏幕显示两副牌的具体构成（如 Green 牌：202张方块、135张黑桃；Purple 牌：135张方块、202张黑桃）
- 被试被告知电脑以等概率（50/50）随机选择了一副牌
- 屏幕显示从被选牌中抽取的一张卡片的花色（如"Diamond"）
- 被试在0%–100%的滑块上填写"被选中的牌是Purple的概率"（概率须加总为100）
信号强度操纵：通过改变两副牌中花色比例来系统变化信号强度。对称信号结构下，信号精度 ρ = ρ₁ = ρ₂，取值范围 [0.047, 0.495] 或 [0.505, 0.953]，对应 32 种信号强度水平，覆盖16种信号强度 S ∈ [0.02, 3.00]。牌的大小（N = 1,665 或 337）也被随机化。
轮次结构：主要部分共12轮，每轮观察一张卡片。共获取6,000个预测（4,036来自对称信号，1,964来自非对称信号）。随机插入72个完全无信息信号（两副牌构成完全相同）作为注意力检查。
附加Treatment：包括多次抽牌、信息需求引出（willingness to pay for drawing cards）、信号强度模糊等处理。

激励机制：采用 paired-uniform scoring 的二值化评分规则（binarized scoring rule）。被试的回答决定其获得高奖金的概率。5名被试被随机选中获得奖金（高奖金$100或低奖金$10）。所有被试获得$3的参与费，被选中者平均获得$82。

随机化：每题随机化以下维度——哪副牌含更多方块/黑桃、抽出哪种花色、牌的大小（N）。

Study 1b：跟进实验（2024年3月实施）

设计变化：

系统变化先验概率：Green牌被选中的概率为 1/2、1/3 或 1/4（通过设置2、3或4副牌实现，第一副为Green，其余牌构成完全相同）
500名被试，每人15轮，每5轮为一个block对应一个先验
去掉了Study 1a中的附加Treatment，聚焦于单次对称信号的反应

激励：10名被试被随机选中，高奖金$50，否则无奖金。参与费$3.60，被选中者平均$35。

Study 2：自然情境实验——NBA篮球比赛（2024年4月实施）

被试：从Prolific招募自称为篮球迷的美国人，500名完成实验并通过注意力检查且声明关注NBA。

完整实验流程（逐屏）：

指导页面：被试被告知将看到一场假想NBA比赛中的简单场景（包含比分差、剩余时间、控球方），需要估计各队获胜概率。
每个场景集（共4个，对应4个节）：
- 基础场景屏：显示某节剩余2:40，告知比分差（领先1分或5分）、控球方。屏幕同时显示基于历史数据的计算器估算胜率（如"Team E: 64% chance of winning"），作为所有被试共同的先验。
- 事件屏（共4个回合）：每个回合显示下一次控球结果（进球——两分球、或未进球——被对方抢到篮板），时间减少10-15秒。屏幕以表格形式呈现：时间 | 上一事件 | 比分 | 你之前的猜测。被试在0-100的滑块上输入某队获胜概率。
- 4个回合结束后进入下一节的场景集。
信号强度的变化来源：同一事件（如进球）在第一节vs第四节的信号强度差异巨大——第四节进球是更强的信号。
随机化：场景集的节次顺序随机；领先分数（1分或5分）随机化以提供先验变化。

激励：10名被试被选中，高奖金$50，否则无奖金。参与费$2.50，被选中者平均$25。

基准构建：使用 Inpredictable 网站的NBA胜率计算器（基于历史逐球数据）计算各场景下的"正确"概率。

维度2：理论模型

经典基准

贝叶斯更新：logit(π₁(s)) = logit(π₀) ± S(s)，其中 S(s) ≡ |log(p(s|θ=1)/p(s|θ=0))| 为信号强度。完全贝叶斯人按真实 S(s) 更新。

行为偏差模型

核心假设：

Assumption 1（合理估计）：人对信号强度的估计 e 是无偏的（E[e|S] = S）、良序的（满足严格单调似然比性质MLRP）、且不完美的（不存在 e 使 P(S|e)=1）。
Assumption 2（先验预期有界）：观察方向信号 sₐ 后的先验期望 Ŝ(sₐ) 严格介于 S 的可能范围之间。
Assumption 3（向信号更新/UTS）：后验期望 Ŝ(ŝ) 严格介于先验 Ŝ(sₐ) 和估计 e 之间。

核心命题（Proposition 1）：在上述假设下，人对弱信号过度推断（E[Ŝ(ŝ)|s] > S(s)），对强信号推断不足（E[Ŝ(ŝ)|s] < S(s)），存在唯一切换点 S*。

参数化模型（对数正态）

假设 log S ~ N(μₛ, σ²ₛ)，估计 log e ~ N(log S − σ²ₑ/2, σ²ₑ)。推导得到：

E[Ŝ(ŝ)|s] = k · S^β
其中 β = σ²ₛ/(σ²ₛ+σ²ₑ) ∈ (0,1)，k = exp((β·σ²ₑ)/2) · Ŝ(sₐ)^(1−β)
等效权重函数：ŵ(S) = k · S^(−(1−β))，弱信号权重 >1，强信号权重 <1

可检验预测

感知信号强度与真实强度在对数空间中近似线性，斜率 β < 1
弱信号对应过度反应，强信号对应反应不足
估计精度越低（σ²ₑ 越大），β 越小，效应越强
在观测数据中，belief movement 在弱信号时应超过 uncertainty reduction（过度反应），在强信号时应低于 uncertainty reduction（反应不足）

维度3：核心发现

Study 1a 主要结果

感知信号强度随真实强度单调递增，但关系被"压缩"（muted）——在对数-对数空间中近似线性，斜率 β̂ = 0.76 (s.e. 0.03)，显著小于1 (p < .001)
参数 k̂ = 0.88 (s.e. 0.02)
切换点 ρ* = 0.64 (s.e. 0.01)，即信号精度约0.64处从过度推断切换到推断不足
对于极弱信号（diagnosticity < 3/5），被试表现得好像信号是实际强度的两倍多
对于极强信号，被试表现得好像信号只有实际强度的约2/3
回归分析（Table I, Col 1）：Weight on signal 对常数的估计 = 1.420 (s.e. 0.030) > 1，对信号强度的斜率 = −0.308 (s.e. 0.031) < 0，均 p < .001

Study 1b 主要结果

在非对称先验（1/2, 1/3, 1/4）下复制了核心发现
β̂ = 0.61 (s.e. 0.02)，k̂ = 0.89 (s.e. 0.02)，ρ* = 0.68 (s.e. 0.01)
控制base-rate neglect后，核心效应几乎不变（Table I, Col 3：常数 2.182，斜率 −0.958）
存在轻微的base-rate neglect（α̂ = 0.94），但不影响主效应

Study 2 主要结果

在自然情境中复制了核心模式：第一节事件被过度反应（权重约1.6倍），第四节事件被反应不足（权重不到2/3）
β̂ = 0.41 (s.e. 0.02)，k̂ = 0.40 (s.e. 0.02)——效应比抽象实验更强
切换发生在约第三节（从过度反应转为反应不足）
Table I, Col 4-5：常数 1.706 (s.e. 0.029)，斜率 −2.079 (s.e. 0.111)，均 p < .001

异质性分析（Table II）

估计精度更低的人（权重标准差更大）：过度/不足推断效应更强（交互项 −0.383, s.e. 0.036，Study 1a）
任务经验更少的人：效应更强（交互项 −0.042, s.e. 0.009）
CRT分数更低的人：效应更强（交互项 −0.102, s.e. 0.028）
自报不确定性更高的人（Study 1b）：效应更强（交互项 −0.542, s.e. 0.038）

体育博彩市场

五种运动（足球、篮球、棒球、冰球、美式足球）超过500万笔交易、约260,000场赛事
比赛早期（弱信号）：movement > uncertainty reduction（过度反应）
比赛后期（强信号）：movement < uncertainty reduction（反应不足）
Table III：所有运动的回归中，常数显著为正（p < .001），斜率显著小于1（p < .001 或 p < .007），与理论预测一致
篮球数据中，过度反应到反应不足的切换发生在约第三节末，与Study 2实验结果吻合

S&P 500 期权市场

1996–2018年约400万期权报价，955个到期日，5,500个交易日
远离到期（弱信号）：movement 持续高于 uncertainty reduction——市场过度反应
临近到期约10个交易日内：uncertainty reduction 超过 movement——市场反应不足
Table III, Finance列：常数 0.0065 (s.e. 0.0003)，斜率 0.680 (s.e. 0.040)（原始）/ 0.733 (s.e. 0.041)（风险调整后），均显著不同于贝叶斯基准
风险调整对结果影响极小

维度4：变量概览

观测变量（Outcome Variables）

变量	测量方式
后验信念 π̂₁	被试在0-100滑块上报告的概率（Studies 1a, 1b, 2）
感知信号强度 Ŝ(ŝ)	从logit(π̂₁) − logit(π̂₀) 反推
信号权重 ŵ(S)	Ŝ(ŝ)/S(s)，即感知强度与真实强度之比
Belief movement	Σ(πₜ₊₁ − πₜ)²，信念变化的平方和
Uncertainty reduction	u(π₁) − u(π₂) = π₁(1−π₁) − π₂(1−π₂)
Excess movement	Movement − Uncertainty reduction

核心自变量/Treatment变量

变量	操纵方式
信号强度 S(s)	牌的花色比例（Studies 1a, 1b）；比赛时间/节次（Study 2）；距结算时间（博彩/期权）
先验概率 π₀	等概率1/2（Study 1a）；1/2, 1/3, 1/4（Study 1b）；计算器估算值（Study 2）
信号方向 sₐ	抽出的花色（Diamond/Spade）；进球/未进球

控制变量

被试固定效应、轮次固定效应
先验权重项 logit(π₀)/(logit π₁ − logit π₀)（控制base-rate neglect，Study 1b）
估计精度代理变量：权重标准差、任务经验（轮次）、CRT分数、自报不确定性
风险厌恶调整（期权数据中使用power utility假设转换为物理概率）

维度5：局限性

抽象实验的外部效度：抽象"bookbag-and-poker-chips"范式类似数学考试，可能不能完全代表真实决策场景中的更新行为。Study 2尝试解决但仍为假想场景。
观测数据中无法直接观测贝叶斯基准：体育博彩和期权市场中无法构建"正确"的条件概率，只能依赖间接检验（movement vs. uncertainty reduction）。
市场价格 ≠ 个体信念：博彩/期权价格反映边际交易者信念（可能还受风险偏好、投机交易等因素影响），而非个体信念。
理论假设可能被违反的情形：(i) 人们完全忽略某些弱信号；(ii) 人们对信号方向不确定；(iii) 强度估计系统性有偏；(iv) 未能校正估计噪声。这些情况下理论预测可能不成立。
"默认"中间强度的来源不明：理论只提供了人们向某个中间强度收缩的高层描述，但未精确建模这个默认强度如何确定。
base-rate neglect的交互影响：虽然数据显示base-rate neglect有限，但先验扭曲可能在某些设置中污染信号强度效应的估计。

维度6：与其他文献的关系

直接相关

Phillips_Edwards_1966_Conservatism：最早研究信号强度对推断的影响（未激励），发现反应不足
Griffin_Tversky_1992_Representativeness：发现人们对样本比例敏感但对样本量不敏感；本文的信号强度概念对应其"discriminability"
Benjamin_2019_BiasesInference：综述500个实验条件发现反应不足为主，但主要使用强信号（diagnosticity ≥ 3/5）
Enke_Graeber_2023_CognitiveUncertainty：提出认知不确定性模型，人对信号整体不敏感并向先验收缩；本文关键区别在于聚焦方向已知但强度不确定的情形
Khaw_Li_Woodford_2021_CognitiveNoise：认知噪声模型，本文在此基础上建模信号强度估计
Augenblick_Rabin_2021_BeliefMovement：提出movement = uncertainty reduction的贝叶斯检验
Augenblick_Lazarus_2023_ExcessMovement：将上述检验应用于期权市场
Ba_Bohren_Imas_2024_ChanneledAttention：独立复制Study 1a的核心发现，提出"channeled attention"两阶段模型
Bordalo_etal_2023_HowPeopleUseStatistics：发现对信号强度的不敏感及多模态性

金融市场文献

Barberis_etal_1998_InvestorSentiment：投资者情绪模型预测动量与反转
Giglio_Kelly_2018_ExcessVolatility：论证过度波动与过度反应的联系
Bernard_Thomas_1989_PEAD：盈余公告后漂移——市场对强信号反应不足
Bordalo_etal_2024_OverreactionStockMarket：过度反应与股市谜题
Moskowitz_2021_SportsBetting：体育博彩数据中的定价效率

预测与预期文献

Afrouzi_etal_2023_OverreactionExpectations：宏观预期中的过度反应
Fan_Liang_Peng_2024_InferenceForecastGap：实验预测任务中的过度反应

维度7：可拓展的研究方向

实验设计改进

抽象 vs. 自然情境的系统比较：在同一被试内比较抽象任务和自然任务的反应，分离"数学考试效应"
过程追踪：使用眼动追踪或鼠标追踪，直接观察被试如何处理信号强度信息
真实利益相关的自然情境：在真实赌博或投资决策中测试（而非假想场景）

未探索的调节变量

信息来源质量：低质量来源（社交媒体）vs. 高质量来源（官方报告）对信号强度敏感性的影响
情感与动机因素：期望偏差（wishful thinking）是否与信号强度效应交互
专业知识深度：领域专家 vs. 新手的估计精度差异及其对效应大小的调节
重复反馈与学习：长期提供反馈是否能减弱效应
注意力的内生性：信号强度是否影响人们是否关注信号（而非仅影响已关注信号的处理）

可推广的领域

新闻消费与媒体：解释人们为何消费过多弱信号（低质量新闻）而对强信号（重大报道）反应不足
宏观经济预测：将框架推广到动态预测场景——弱持续性序列（弱信号）应被过度反应，强持续性序列（强信号）应被反应不足
医学诊断：医生对弱诊断线索是否过度反应、对强线索是否反应不足
组织决策：管理者对绩效信号的反应是否符合该模式
AI辅助决策：探索算法推荐的"信号强度校准"是否能纠正人类偏差

关键结论

信号强度是决定过度/不足推断的核心调节因素：人们对信号强度部分不敏感，感知强度被"锚定"在某个中间水平。这导致弱信号被系统性高估（过度推断），强信号被系统性低估（推断不足），在三个实验和两个高利害关系市场环境中均一致成立。
该框架统一了实验与市场文献的表面矛盾：以往实验主要使用强信号（因此发现反应不足），而现实市场中大量信息为弱信号（因此表现为过度反应/过度波动）。识别信号强度这一维度，可以调和看似矛盾的发现，并为理解信念更新行为提供一个简洁而有力的解释框架。

Overinference_2025_Overinference_Weak_Signals_Underinference