Overinference from Weak Signals and Underinference from Strong Signals

Augenblick, Lazarus & Thaler (2025), The Quarterly Journal of Economics, 140(1), 335--401.

一句话总结

人们在面对弱信号时过度推断、在面对强信号时不足推断——这一发现统一了实验室文献中观察到的"underreaction"与金融市场中常见的"overreaction"两类看似矛盾的现象，因为信号强度本身是行为偏差方向的关键调节变量。

研究问题

belief updating 文献长期存在一个悖论：实验室实验普遍发现被试相对贝叶斯基准不足反应（underinference, e.g., Benjamin 2019 综述），但现实金融市场和宏观数据中却普遍记录到过度反应（excess volatility, overreaction）。这一矛盾如何调和？本文提出：实验室文献几乎只使用强信号（diagnosticity ≥ 3/5），而现实环境中许多信号是弱信号；如果人们对信号强度本身存在系统性认知噪声（cognitive noise），则会对弱信号过度推断、对强信号不足推断，从而同时解释两类现象。

核心贡献

理论统一：提出一个简洁的"信号强度估计噪声"模型，给出一个清晰可证伪的预测——感知信号强度对真实信号强度的对数线性回归斜率 β ∈ (0,1)，由此推出对弱信号的过度推断和对强信号的不足推断。
首次系统记录弱信号过度推断：将信号精度的实验范围大幅扩展到 ρ ∈ [0.5, 0.95]（既有文献几乎只做 ρ ≥ 2/3），首次在激励相容的实验中清晰记录到对弱信号的过度推断。
跨四个环境一致性验证：在抽象实验（Study 1a/1b）、自然情境实验（NBA 比赛预测，Study 2）、体育博彩市场（5 个项目、500 万笔交易）、S&P 500 期权市场（22 年数据）中均观察到一致的"弱信号过度推断 → 强信号不足推断"的切换模式。
新实证方法：将 Augenblick & Rabin (2021) 与 Augenblick & Lazarus (2023) 的 movement vs. uncertainty reduction 框架应用到按信号强度分组的检验中，使得即使无法控制真实 DGP 的市场数据也能可靠地检验信念更新偏差。
机制证据：通过测量被试的认知不确定性（Enke & Graeber 2023 方法）、CRT 分数与领域经验，证实估计精度（σ_e）越低、效应越强，符合理论的微观机制。
实验—市场可比性：用实验中估计的 k 和 β 参数进行模拟，生成的模式与体育博彩和期权数据吻合，建立了实验室到现实市场的桥梁。

维度1：实验设计分析

本文包含三个实验研究（Study 1a, Study 1b, Study 2）和两个实证数据分析（体育博彩市场、S&P 500 期权市场）。

Study 1a：抽象信念更新实验（Abstract Updating Experiment）

实验任务详细流程

范式： 经典的"bookbag-and-poker-chips"（书包与扑克牌）范式，改编自 Green, Halbert, and Robinson (1965)。

被试进入实验后的流程：

指导语阶段： 被试被告知有两副牌（card decks），每副牌各有 N 张牌。一副标记为"Green"（绿色），另一副标记为"Purple"（紫色）。每副牌由方块牌（Diamonds）和黑桃牌（Spades）组成。绿色牌组包含 D1 张方块和 N - D1 张黑桃；紫色牌组包含 D2 张方块和 N - D2 张黑桃。
主要 Treatment（对称信号）的具体流程：
- 在每一轮中，电脑以等概率（50%/50%）随机选择绿色或紫色牌组。被试不知道选了哪副牌。
- 电脑从选中的牌组中随机抽出一张牌，将该牌的花色（方块或黑桃）展示给被试。这就是被试获得的信号。
- 被试看到的信号形式：文字描述——告知被试抽出的牌是方块还是黑桃。
- 决策界面： 被试需要提供一个百分比概率（0% 到 100%，整数），表示他们认为选中的牌组是紫色（Purple）的概率。两个概率（Purple 和 Green）必须加总等于 100%。
信号强度的操控： 通过改变每副牌中方块和黑桃的比例来操控信号强度。例如：
- 如果紫色牌组有很大比例的方块（如 D1/N 很大），而绿色牌组只有很小比例的方块（D2/N 很小），那么看到一张方块就是强信号，强烈暗示选中的是紫色牌组。
- 如果两副牌的方块比例差异很小，那么看到方块就是弱信号。
- 研究者选择了 32 种不同的信号精度值 rho，使得信号强度 S = |logit(rho)| 覆盖 [0.02, 3.00] 这个宽范围。具体的牌组大小 N 为 1,665 或 337（故意选择不规则的大数字，以消除简单心算的锚点效应）。
注意力检查： 72 个信号被设置为完全无信息的（两副牌组成完全相同），正确答案应为 50%。96% 的被试正确回答了 50%。
轮次结构： 被试在主要部分完成 12 轮，每轮观察一次抽牌（一张牌）并给出概率判断。总共获取 6,000 个预测：4,036 个来自对称信号，1,964 个来自非对称信号。
其他 Treatment：
- 多次抽牌（multiple draws）：被试可看到多张抽出的牌
- 信息需求（demand for information）：通过支付意愿来引出被试对抽牌的估价
- 模糊信号（ambiguous signals）：告知被试每副牌中花色比例只有两个可能值（高或低），但不告知具体值

实验界面描述

论文提到实验界面的截图在 Online Appendix C 中。根据描述，被试看到的界面包括：牌组描述（多少张方块/黑桃）、抽出牌的花色，以及一个输入框让被试填写概率百分比。

其他设计要素

实验类型： 在线实验（Online），通过 Prolific 平台招募
实施时间： 2021 年 3 月
样本量： 500 名被试完成实验并通过注意力检查
随机化策略： Within-subject 设计——每位被试在不同轮次中面对不同的信号强度
在每一轮中随机化的变量： 绿色还是紫色牌含更多方块、哪种花色被抽中、牌组大小 N 是 1,665 还是 337
激励机制：
- 所有被试获得 $3 show-up fee
- 采用 paired-uniform scoring 的二值化版本（binarized scoring rule, Hossain and Okui 2013; Vespa and Wilson 2017）：被试的回答决定其赢得高奖金（$100 或 $10）的概率
- 5 名被试被随机选中获得奖金，被选中者平均奖金为 $82
- 这种激励机制下，真实报告自己的信念是最优策略（incentive compatible）
观测变量：
- 主要因变量：被试报告的后验概率（stated posterior）
- 衍生变量：信号权重 w_hat(S) = 被试给予信号的隐含权重（从 logit 信念变化中反推）
- 衍生变量：感知信号强度 S_hat（从被试的后验中反推出他们感知到的信号强度）

Study 1b：后续跟进实验（Follow-Up Experiment）

实验任务详细流程

设计改进： 在 Study 1a 的基础上，系统性地变化先验概率（prior），从仅考虑 pi_0 = 1/2 扩展到 pi_0 = 1/2, 1/3, 1/4。

具体操控方式：

不再只有两副牌（Green 和 Purple），而是设置 2、3 或 4 副牌
每副牌被等概率选中（1/2, 1/3, 或 1/4）
第一副牌标记为 Green，具有 D1 张方块和 N - D1 张黑桃
其他牌组（标记为不同深浅的蓝色 Blue）具有完全相同的组成：N - D1 张方块和 D1 张黑桃
被试被告知一副牌被随机选中，看到一张抽出牌的花色后，报告选中的牌是 Green 的概率

轮次结构： 15 轮，分为 3 个 block，每个 block 5 轮，对应不同的先验概率。

新增测量——认知不确定性：

改编自 Enke and Graeber (2023) 的方法
在实验过程中三次询问被试："How certain are you that the optimal guess is somewhere between x - 1% and x + 1%?"（0 到 100 的量表）
取三次回答的平均值作为被试估计精度的代理变量

其他设计要素

实验类型： 在线实验（Online），Prolific 平台
实施时间： 2024 年 3 月
样本量： 500 名被试完成实验并通过注意力检查
随机化策略： Within-subject（信号强度在轮次间变化）+ Between-subject 元素（先验概率在 block 间变化，block 顺序随机）
激励机制：
- $3.60 show-up fee
- 10 名被试被随机选中赢得奖金
- 高奖金 $50，低奖金 $0
- 被选中者平均奖金 $35
- 同样使用 paired-uniform binarized scoring rule

Study 2：自然情境实验——NBA 篮球比赛预测（Naturalistic Experiment）

实验任务详细流程

实验背景与动机： Study 1a 和 1b 使用抽象的数学范式，可能像"数学考试"而非真实决策。Study 2 设计了一个更贴近现实的情境——让篮球迷预测 NBA 比赛结果。

被试进入实验后的完整流程：

指导语： 被试被告知他们将看到一系列 NBA 比赛的简化情境（hypothetical game scenarios），涉及两支匿名球队（Team A 和 Team B），需要估计各队赢得比赛的概率。被试被告知："We have used a model based on a database of regular-season NBA games with several years of play-by-play data to estimate the likelihoods of each team winning in these scenarios. The closer your answer is to the likelihood, the more likely you are to win the $50 bonus."
情境集（Scenario Set）的结构：
- 被试依次经历 4 组情境集（scenario sets），每组对应 NBA 比赛的一个节（quarter）
- 每组的起始时间为该节剩余 2:40，每个事件后时间减少 10-15 秒
- 4 组的顺序随机打乱
每组情境集的具体步骤：
- Step 1 - 基准情境（Base Scenario）： 被试看到一个比赛基准场景，包括：比分差（领先 1 分或 5 分）、剩余时间、哪队控球。被试被直接告知计算器给出的此时的胜率（例如"Team E: 66% chance of winning"）。
- Step 2 - 第一个事件（信号）： 被试被告知下一次控球的结果——好消息（进攻方投中两分球）或坏消息（进攻方投篮未中，防守方获得球权）。信号等概率为好消息或坏消息。
- 决策界面（如 Figure IV 截图所示）：
  - 屏幕上方显示文字说明："We will give you some more information about the game."
  - 中间是一个表格，有三列：Time（时间）、Last action（上一个动作）、Score（比分）、Your guess（你的猜测）
  - 第一行显示基准情境及计算器给出的胜率
  - 第二行显示新事件（加粗显示），比分更新，"Your guess"列留空待填
  - 下方有一个滑块（slider），标尺从 0 到 100，被试拖动滑块报告他们认为某队赢得比赛的百分比概率
- Step 3-5： 依次再给出 3 个后续控球事件，被试每次都能看到之前所有事件的序列以及自己之前填的答案（仍显示在屏幕上），然后对新事件给出更新后的概率判断。
信号强度的来源： 主要通过**比赛时间（timing）**来操控。第一节的一个投篮（弱信号）vs. 第四节的一个投篮（强信号）——同样的事件（进球/未进球），在不同时间点的信息量截然不同。第四节最后时刻的一个投篮对比赛结果的影响远大于第一节的投篮。正确的贝叶斯基准由 Inpredictable 网站的胜率计算器提供。
总轮次： 16 轮（4 个情境集 x 每集 4 次控球）

实验界面截图描述（Figure IV）

论文提供了 Figure IV，展示了被试在一个信息页面上看到的内容：

顶部文字："Prediction - We will give you some more information about the game. With 2:25 left in the third quarter, Team F missed a shot and Team E rebounded the ball."
中间表格：
- 第 1 行：Q3: 2:40 left | Team E made a shot | Team E is up by 5 points | Team E: 66% chance of winning
- 第 2 行（加粗）：Q3: 2:25 left | Team F missed a shot, Team E rebounded the ball | Team E is up by 5 points | ?（待被试填写）
底部：水平滑块，刻度 0-10-20-30-40-50-60-70-80-90-100，滑块初始位置靠左

其他设计要素

实验类型： 在线实验（Online），Prolific 平台，限定为美国篮球迷
实施时间： 2024 年 4 月
样本量： 500 名篮球迷完成实验并通过注意力检查，且自报关注 NBA
被试筛选： 必须是美国人、自报为篮球迷、声明关注 NBA
随机化策略： Within-subject（每位被试经历所有四个节的情境）
激励机制：
- $2.50 show-up fee
- 10 名被试被随机选中赢得奖金
- 高奖金 $50，低奖金 $0
- 被选中者平均奖金 $25
- 使用 paired-uniform binarized scoring rule
观测变量：
- 被试报告的胜率概率
- 衍生：感知信号强度 S_hat（从连续两次报告的 logit 差推出）
- 衍生：信号权重 w_hat（与计算器给出的贝叶斯基准信号强度的比值）
因果识别策略： 信号强度的变化主要来自比赛节次（quarter）的外生变化；比分差和事件类型被控制。

实证数据分析 1：体育博彩市场（Sports Betting Data）

数据来源： Betfair 交易所（预测市场），2006-2014 年
覆盖运动： 足球、篮球、棒球、冰球、美式橄榄球
数据规模： 超过 500 万笔交易，约 260,000 场比赛
观测变量： 市场隐含信念（价格归一化后的概率）、信念变动量（movement）、不确定性缩减（uncertainty reduction）
信号强度代理： 距离比赛结束的时间（time to resolution）——越接近比赛结束，信号越强
分析方法： 将比赛时间分为 24 个等长时间窗口，分别计算每个窗口的平均 movement 和平均 uncertainty reduction，然后回归分析两者的关系

实证数据分析 2：S&P 500 指数期权市场（Index Options Data）

数据来源： OptionMetrics（CBOE），1996-2018 年
数据规模： 超过 400 万个期权价格报价，约 955 个到期日，约 5,500 个交易日
观测变量： 期权隐含的风险中性概率分布 -> belief movement 和 uncertainty reduction
信号强度代理： 距离到期日的交易天数（time to expiration）
风险调整： 将风险中性（RN）信念转换为物理（subjective）信念，使用幂效用函数假设

实验亮点

信号强度的宽范围覆盖： 关键创新在于将信号精度从传统文献中的高精度范围（rho >= 0.6）大幅扩展到极低精度（rho 低至 0.047），揭示了之前文献未曾探索的过度推断现象。
多环境一致性： 同一个理论预测在抽象实验、自然情境实验、体育博彩和金融市场四种截然不同的环境中得到一致验证。
DGP-agnostic 的观测数据检验方法： 利用 Augenblick and Rabin (2021) 和 Augenblick and Lazarus (2023) 的理论结果，开发了无需知道真实数据生成过程就能检验过度/不足推断的 movement vs. uncertainty reduction 方法。
Study 2 的自然情境设计： 篮球比赛预测巧妙地实现了三个困难目标的统一——(i) 被试直觉理解情境，(ii) 信号强度自然变化，(iii) 有客观的第三方正确答案（胜率计算器）。
认知不确定性的直接测量： Study 1b 中引入了 Enke and Graeber (2023) 的认知不确定性测量，直接验证了估计精度与效应强度之间的理论预测关系。

实验局限

抽象实验的外部效度： Study 1a 和 1b 的数学化环境可能与真实决策过程不同。
体育博彩和金融数据中的间接测量： 无法直接观测个人信念和信号强度，只能通过价格和时间代理。
风险偏好的干扰： 期权市场数据中，价格反映的是风险中性概率而非主观信念，需要做风险调整假设。
Prolific 样本的代表性： 虽然 Prolific 被认为较具代表性，但仍是线上实验，可能存在特定人群偏差。
信号方向已知的假设： 理论模型假设人们知道信号的方向（正面/负面），但不知道强度。在方向也不确定的情况下，模型预测会有所不同。

维度2：理论模型

经典理论基准：贝叶斯更新

信号 s = (s_d, s_m)，其中 s_d 为方向分量（正/负），s_m 为强度分量。

信号强度的定义：

\mathbb{S}(s) \equiv \left| \log\left(\frac{p(s|\theta=1)}{p(s|\theta=0)}\right) \right|

即信号的对数似然比的绝对值。

贝叶斯更新规则：

\text{logit}(\pi_1(s)) = \text{logit}(\pi_0) \pm \mathbb{S}(s)

其中 logit(x) = log(x/(1-x))，正负号取决于信号方向 s_d。

行为偏差模型

核心假设： 人们知道信号的方向 s_d 但不完全理解信号的强度 s_m。他们形成一个关于信号强度的估计 e（而非完美计算出 S(s)）。

三个关键假设（Assumptions 1-3）：

Assumption 1（合理估计）： (i) e 是无偏的：E[e|S] = S；(ii) e 满足严格单调似然比性质（MLRP）：p(e|S=S2)/p(e|S=S1) 对所有 e 严格递增（当 S2 > S1）；(iii) e 是不完美的：不存在使 P(S|e)=1 的 (e, S) 配对。
Assumption 2（先验期望严格介于两端）： S_hat(s_d)（方向条件下的强度先验期望）严格介于信号强度的最小值和最大值之间。
Assumption 3（向信号更新，UTS）： 对所有 s_hat，后验期望 S_hat(s_hat) 严格介于先验期望 S_hat(s_d) 和估计 e 之间。

核心命题（Proposition 1 -- 过度推断与不足推断）：

人们从弱信号过度推断、从强信号不足推断。存在唯一的切换点 S*，使得当 S(s) < S* 时过度推断（E[S_hat(s_hat)|s] > S(s)），当 S(s) > S* 时不足推断（E[S_hat(s_hat)|s] < S(s)）。

直觉： 当估计 e 极度嘈杂时（极端情况），人们对 e 完全不信任，始终使用先验期望 S_hat(s_d) 作为信号强度，这是一个"中间"值。由此对弱信号赋予过多权重、对强信号赋予过少权重。

参数化模型：对数正态分布

信号强度分布： log S ~ N(mu_S, sigma_S^2)

估计分布： 给定 S，log e ~ N(log S - sigma_e^2/2, sigma_e^2)

更新规则（公式 3）：

\hat{\mathbb{S}}(\hat{s}) = \exp\left[\left(1 - \frac{\sigma_\mathbb{S}^2}{\sigma_e^2 + \sigma_\mathbb{S}^2}\right) \cdot \log \hat{\mathbb{S}}(s_d) + \left(\frac{\sigma_\mathbb{S}^2}{\sigma_e^2 + \sigma_\mathbb{S}^2}\right) \cdot \left(\log e + \frac{\sigma_e^2}{2}\right)\right]

即对先验（对数调整后）和估计（对数调整后）取加权平均，再取指数。

感知信号强度的期望（公式 4）：

\mathbb{E}[\hat{\mathbb{S}}(\hat{s})|s] = k \cdot \mathbb{S}^\beta

其中 beta = sigma_S^2 / (sigma_S^2 + sigma_e^2) 属于 (0, 1)，k = exp(beta * sigma_e^2 / 2) * S_hat(s_d)^(1-beta)。

对数线性关系（公式 5）：

\log(\mathbb{E}[\hat{\mathbb{S}}(\hat{s})|s]) = \log(k) + \beta \cdot \log(\mathbb{S})

信号权重函数（公式 6）：

\hat{w}(\mathbb{S}) = k \cdot \mathbb{S}^{-(1-\beta)}

弱信号权重 > 1（过度推断），强信号权重 < 1（不足推断），当 beta -> 1 时趋向贝叶斯。

Base-Rate Neglect 的控制（公式 8-9）

当先验 pi_0 != 1/2 时，使用 Grether (1980) 回归方法控制 base-rate neglect：

\hat{w}(\mathbb{S}(s)) = \gamma_0 + \gamma_1 \cdot \mathbb{S}(s) + (\alpha - 1) \cdot \frac{\text{logit} \pi_0}{\text{logit} \pi_1 - \text{logit} \pi_0}

其中 alpha < 1 表示 base-rate neglect。

可检验预测

信号权重与信号强度之间存在负相关关系（弱信号被过度加权，强信号被低估加权）
log(感知强度) 与 log(真实强度) 之间近似线性关系，斜率 beta < 1
估计精度越低的人（更高的 sigma_e），效应越强
经验越多/认知能力越强的人，效应越弱
在观测数据中：弱信号时 movement > uncertainty reduction（过度推断），强信号时 movement < uncertainty reduction（不足推断）

Structural Estimation

使用非线性最小二乘法（nonlinear least squares）估计权重函数 w_hat(S) = k * S^(-(1-beta)) 中的参数 k 和 beta。标准误按被试层面聚类。

维度3：核心发现

Study 1a 主要结论

几乎所有被试都在正确方向上更新信念，但更新幅度存在系统性偏差
感知信号强度随真实强度单调递增，但关系是减弱的（muted）——表现为对数坐标下斜率小于 1
对弱信号过度推断： 当信号精度 rho < 0.6 时，被试表现如同信号强度是实际的两倍以上
对强信号不足推断： 当信号精度 rho >= 2/3 时（与既有文献使用的范围一致），被试表现出不足推断，与既有文献结论一致
参数估计： k = 0.88 (s.e. 0.02)，beta = 0.76 (s.e. 0.03)，beta 显著小于 1 (p < .001)
切换点： rho* = 0.64 (s.e. 0.01)，即 S* = logit(0.64) = 0.58
回归结果（Table I, Column 1）： 信号权重对信号强度的回归——常数项 = 1.420 (0.030) 显著大于 1，斜率 = -0.308 (0.031) 显著为负。两个检验（常数 = 1 和斜率 = 0）的 p 值均 < .001

Study 1a 异质性分析（Table II）

权重方差更大（估计精度更低）的被试效应更强：交互项 = -0.383 (0.036)
经验更少的被试效应更强：交互项 = -0.042 (0.009)
CRT 分数更低的被试效应更强：交互项 = -0.102 (0.028)

Study 1b 主要结论

在非对称先验（pi_0 = 1/2, 1/3, 1/4）下，核心效应依然稳健
参数估计： k = 0.89 (s.e. 0.02)，beta = 0.61 (s.e. 0.02)，beta 显著小于 1 (p < .001)
切换点： rho* = 0.68 (s.e. 0.01)
Base-rate neglect： 存在温和的 base-rate neglect（alpha = 0.94），但控制后对核心效应几乎无影响（k = 0.87, beta = 0.69）
认知不确定性： 自报更高认知不确定性的被试效应更强（交互项 = -0.542 (0.048), Table II Column 6）
回归结果（Table I, Columns 2-3）： 常数项约 2.18，斜率约 -0.06 至 -0.07，均显著

Study 2 主要结论

篮球迷在所有节都在正确方向上更新，但对信号强度不敏感
第一节（弱信号）： 过度推断，被试赋予事件约 1.6 倍于贝叶斯应有的权重
第四节（强信号）： 不足推断，被试赋予事件不到贝叶斯应有权重的 2/3
切换时间： 大约在第三节附近，从过度推断切换到不足推断
参数估计： k = 0.40 (s.e. 0.02)，beta = 0.41 (s.e. 0.02)，beta 显著小于 1 (p < .001)
效应比抽象实验更强（beta 更低），可能因为自然情境中估计信号强度更困难
回归结果（Table I, Columns 4-5）： 常数项约 1.71，斜率约 -0.21，均显著

体育博彩数据主要结论

五种运动一致显示： 比赛早期 movement > uncertainty reduction（过度推断），比赛后期 movement < uncertainty reduction（不足推断）
Table III 回归结果：
- 足球：常数 = 0.0009 (0.0001), 斜率 = 0.918 (0.005)
- 篮球：常数 = 0.0018 (0.0001), 斜率 = 0.806 (0.008)
- 棒球：常数 = 0.0026 (0.0002), 斜率 = 0.889 (0.013)
- 冰球：常数 = 0.0018 (0.0002), 斜率 = 0.945 (0.013)
- 美式橄榄球：常数 = 0.0015 (0.0002), 斜率 = 0.912 (0.027)
所有运动中常数项 > 0、斜率 < 1，均高度显著 (p < .001)
篮球数据中，excess movement 从正值切换到负值大约在第三节末——与 Study 2 的实验结果完美对应

S&P 500 期权数据主要结论

未调整风险（RN beliefs）： 常数 = 0.0065 (0.0003), 斜率 = 0.680 (0.040)
风险调整后（Physical beliefs）： 常数 = 0.0060 (0.0003), 斜率 = 0.733 (0.041)
远离到期日时（信号弱），movement 持续高于 uncertainty reduction
接近到期日（约 10 个交易日内），uncertainty reduction 超过 movement
所有检验 p < .001

稳健性检验

不同牌组大小（N = 1,665 vs. 337）无显著差异
颜色（Green vs. Purple）和花色（Diamond vs. Spade）无显著影响
信号方向（正/负）无显著差异
非对称信号下核心效应依然存在，且更强（k = 0.84, beta = 0.56）
Study 1b 中允许 base-rate neglect 后核心参数几乎不变
体育博彩数据使用 12 或 36 个时间窗口（而非 24 个）结果稳健
期权数据在 post-2000 和 post-2010 子样本中结果一致
不同的风险调整参数化方案对期权结果影响极小

维度6：与其他文献的关系

在 belief updating 领域的位置

本文处于实验经济学中 belief updating（信念更新）文献的核心位置。它试图解决该领域一个长期存在的矛盾：实验室实验通常发现不足反应（underreaction），而现实金融市场数据通常显示过度反应（overreaction / excess volatility）。本文提出信号强度是调和这一矛盾的关键中介变量：实验室中通常使用强信号（因此观察到不足反应），而现实中许多信号较弱（因此观察到过度反应）。

与经典论文的对话

Phillips and Edwards (1966)： 最早研究信号强度对推断影响的论文，在无激励的任务中使用多信号序列。本文是首个在激励相容环境中系统研究信号强度的广泛范围的论文。
Griffin and Tversky (1992)： 区分了证据的"strength"和"weight"，发现人们对样本大小（weight of evidence）不敏感。本文复制了这一发现（多信号 treatment），但表明这与本文的核心效应是正交的。
Benjamin (2019) 综述： 总结了 21 篇论文的 500 个 treatment blocks，结论是"underinference is by far the dominant direction of bias"。但这些研究几乎都使用强信号（diagnosticity >= 3/5）。本文将范围扩展到弱信号，揭示了 overinference 的存在。
Khaw, Li, and Woodford (2021)： 提出认知噪声模型，将信息编码中的错误与对信息的不敏感联系起来。本文在此基础上将模型应用到更新任务中。
Enke and Graeber (2023)： 提出认知不确定性模型，预测人们对新信息整体不敏感并向先验收缩。本文与之的关键区别：Enke and Graeber 聚焦于人们不确定信号的方向，因此预测向先验收缩（整体不足推断）；本文聚焦于人们不确定信号的强度（但知道方向），因此预测向"中间"强度收缩，导致过度+不足推断的模式。
Augenblick and Rabin (2021) / Augenblick and Lazarus (2023)： 提供了 movement vs. uncertainty reduction 的理论检验框架，本文将其用于体育博彩和金融市场数据分析。
Bordalo et al. (2023)： 记录了信号强度不敏感性以及更新中的多模态和不稳定性。本文讨论了两种方法的互补性。
Ba, Bohren, and Imas (2024)： 在本文 Study 1a 发表后确认了其核心发现，并提出"channeled attention + cognitively imprecise updating"的两阶段模型。

贡献的新知识

统一框架： 提出一个简洁的理论框架，解释了为什么人们有时过度反应、有时不足反应——信号强度是关键的调节变量。
新的实证发现： 首次系统记录了对弱信号的过度推断现象，填补了文献中的重要空白。
跨环境一致性： 在四种截然不同的环境（抽象实验、自然情境实验、体育博彩、金融市场）中发现一致模式，大大增强了结论的可信度。
新的实证方法： 将 movement vs. uncertainty reduction 方法应用于按信号强度分组的分析，为在无法控制 DGP 的观测数据中检验信念更新偏差提供了可操作工具。
连接实验与市场数据： 用实验中估计的参数（k 和 beta）进行模拟，生成的模式与观测到的市场数据高度吻合，验证了实验结果的外部效度。

维度4：变量概览

观测变量（Outcome Variables）

Stated posterior：被试在每轮报告的后验概率（百分比，0–100 整数；Study 2 用滑块 0–100）
Implied signal weight ŵ(S)：从 logit 信念变化反推的被试对信号赋予的权重 = (logit π̂₁ − logit π₀) / (±S)
Perceived signal strength Ŝ：从被试的后验中反推出的"被试感知到的"信号强度
Belief movement：连续两个时点市场隐含信念变动量的平方（用于体育博彩与期权数据）
Uncertainty reduction：先后两期信念熵 / 方差的下降量
Excess movement：movement − uncertainty reduction（>0 表示过度推断）

核心自变量 / Treatment 变量

Signal strength S(s) = |log(p(s|θ=1)/p(s|θ=0))|：通过抽牌牌组中方块/黑桃比例（Study 1）、比赛节次与剩余时间（Study 2）、距离比赛结束时间（体育博彩）、距离到期日（期权）等渠道外生变化
Signal direction s_d：正信号 vs. 负信号，用于稳健性检验
Prior π₀：Study 1a 固定为 1/2；Study 1b 在 {1/2, 1/3, 1/4} 之间 between-block 变化
Number of draws：单次抽牌 vs. 多次抽牌（用于复制 Griffin & Tversky 1992）

控制变量 / 异质性变量

Cognitive Reflection Test (CRT) score：3 题
Domain experience：被试报告对 NBA 的关注程度（Study 2）；先前实验中投资/概率任务经验
Cognitive uncertainty：自报对最优答案区间的确信度（Study 1b）
Estimate precision：被试在重复任务中权重的方差（个体层面 σ_e 的代理）
Card deck size N：1,665 vs. 337
Color/suit assignment：Green/Purple、Diamond/Spade（无显著差异，作为安慰剂）

维度5：局限性

抽象实验外部效度有限：Study 1a/1b 的"扑克牌+概率"范式可能更像数学考试，被试可能调用与现实决策不同的认知模式。
市场数据无法直接测量个人信念：体育博彩和期权价格反映的是市场聚合信念，混合了不同交易者的偏差与异质性，无法在个体层面识别机制。
风险偏好与主观信念的纠缠：期权数据中需要从风险中性概率反推主观信念，依赖效用函数假设；不同风险参数下结果稳健但仍是间接证据。
信号方向的强假设：理论假设 agents 完美知道信号方向、只对强度有噪声估计。当方向也不确定时（更接近 Enke & Graeber 2023 的设定），模型预测不同。
Prolific 在线样本：虽较为多样，但仍存在自我选择，且任务时间较短，无法测量长期学习。
未直接验证微观机制：模型假设的"对数正态噪声 + MLRP 估计"未被直接观测到，仅通过结果一致性间接支持。
未考虑社交学习与策略性更新：所有任务都是个体独立决策，未考察当信号来自其他人的报告时的更新行为。

维度7：可拓展的研究方向

政策信息的过度/不足反应：将该框架应用于央行前瞻性指引、宏观预测调研——弱信号（非常规、模糊的政策语言）是否产生过度反应？
交易者层面的横截面证据：用券商账户级数据，按交易者特征（CRT、经验）检验单个投资者对盈余公告强度的反应模式。
直接测量"signal strength estimate" e：设计实验直接询问被试对信号诊断性的估计，验证 Assumption 1–3 中的 MLRP 与无偏性。
学习与反馈：在重复任务中提供贝叶斯基准反馈，是否能消除弱信号过度推断？跨任务可迁移性如何？
多维信号整合：当信号有多个维度（如盈余 + 收入 + 现金流）时，强度估计噪声如何累加？
结合 motivated beliefs：在偏好非中性的设定（涉及自我相关、政治议题）中，强度估计噪声是否被动机性失真放大？
机器学习/AI 辅助决策：当信号强度由算法明确告知（如 NBA 胜率计算器直接显示在 UI 上）时，过度/不足推断是否消失？
跨文化与跨年龄比较：估计精度 σ_e 是否系统地随文化、教育、年龄变化？
资产价格含义的结构化估计：在资产定价模型中嵌入 Eq. (3) 的更新规则，校准至宏观/横截面收益率，检验能否解释短期反应不足与长期反应过度的"momentum + reversal"模式。
与 Bordalo et al. (2023) 的 representativeness 框架结合：representativeness 与 strength miscalibration 的相对贡献能否被分解？

关键结论

弱信号 → 过度推断；强信号 → 不足推断：在抽象实验、自然情境实验、体育博彩与金融市场四个完全不同的环境中，均观察到信号权重 ŵ(S) 随信号强度 S 单调下降、且存在唯一切换点 S* 的稳健模式（k ≈ 0.4–0.9, β ≈ 0.4–0.8 < 1，所有 p < 0.001）。
机制为信号强度的认知噪声：估计精度越低（σ_e 越大）的被试效应越强；CRT 分数低、领域经验少、自报认知不确定性高的被试表现出更陡的偏差，符合理论中"对噪声估计 e 不信任 → 退向强度先验"的微观机制。
统一了实验室与市场两类发现：实验室文献因长期使用强信号而几乎只观察到不足反应，而现实市场中既有弱信号（早期、长期）也有强信号（最后时刻、临近到期），故同时存在过度反应与不足反应；信号强度是调节方向的关键中介变量。
新的 DGP-agnostic 检验工具：movement vs. uncertainty reduction 方法可在无法控制真实数据生成过程的市场数据上检验信念更新偏差，为宏观与金融研究提供了通用的可操作工具。

Augenblick_Lazarus_Thaler_2025_Overinference_Underinference

Overinference from Weak Signals and Underinference from Strong Signals

一句话总结

研究问题

核心贡献

维度1：实验设计分析

Study 1a：抽象信念更新实验（Abstract Updating Experiment）

实验任务详细流程

实验界面描述

其他设计要素

Study 1b：后续跟进实验（Follow-Up Experiment）

实验任务详细流程

其他设计要素

Study 2：自然情境实验——NBA 篮球比赛预测（Naturalistic Experiment）

实验任务详细流程

实验界面截图描述（Figure IV）

其他设计要素

实证数据分析 1：体育博彩市场（Sports Betting Data）

实证数据分析 2：S&P 500 指数期权市场（Index Options Data）

实验亮点

实验局限

维度2：理论模型

经典理论基准：贝叶斯更新

行为偏差模型

参数化模型：对数正态分布

Base-Rate Neglect 的控制（公式 8-9）

可检验预测

Structural Estimation

维度3：核心发现

Study 1a 主要结论

Study 1a 异质性分析（Table II）

Study 1b 主要结论

Study 2 主要结论

体育博彩数据主要结论

S&P 500 期权数据主要结论

稳健性检验

维度6：与其他文献的关系

在 belief updating 领域的位置

与经典论文的对话

贡献的新知识

维度4：变量概览

观测变量（Outcome Variables）

核心自变量 / Treatment 变量

控制变量 / 异质性变量

维度5：局限性

维度7：可拓展的研究方向

关键结论

🔗 链接到这篇笔记