Errors in Probabilistic Reasoning and Judgment Biases

元数据

作者: Daniel J. Benjamin
年份: 2019
来源: Handbook of Behavioral Economics, Chapter 2 (Elsevier), pp. 69-186
类型: Handbook综述章节
关键词: belief updating, Bayesian inference, gambler's fallacy, base-rate neglect, representativeness heuristic, conservatism bias, confirmation bias

一句话总结

本章是行为经济学手册中关于概率推理偏差的权威综述，通过 Grether (1980) 扩展模型与对 1960s-2018 实验文献的原创元分析，系统刻画了"欠推断主导、基率忽视、序列效应、确认偏差、好坏消息不对称"等 11 个风格化事实，并对接 NBLLN、代表性、保守主义等理论。

研究问题

人们在面对概率信息时如何形成与更新信念？相对贝叶斯基准，人类信念更新呈现哪些系统性偏差（欠推断 vs. 过推断、基率忽视、序列效应、先验偏向、好/坏消息不对称）？现有的代表性、保守主义、NBLLN 等理论各自能解释哪些偏差，又如何相互区分？这些偏差如何被纳入统一的可估计模型，并对接到金融、宏观、政治经济学等领域的预期形成研究？

核心贡献

统一框架：以 Grether (1980) 的对数赔率扩展模型 $(c, d)$ 作为贯穿全章的概念骨架，将欠推断/过推断、基率忽视、确认偏差、好/坏消息偏差等多种偏差纳入同一参数化结构，便于跨研究比较与累积。
首次系统元分析：对 1960s-2018 之间 16 篇 bookbag-and-poker-chip 实验做元回归，给出 $\hat{c} \approx 0.20$ (全样本) 至 $0.38$ (激励样本)、 $\hat{d} \approx 0.43$ - $0.60$ 的总体估计，确立"欠推断 + 基率忽视"为主导事实。
11 个风格化事实：将零散结论整合为 11 个可被未来理论必须解释的事实清单（包括欠推断随 N 加深、强度 vs. 权重不对称、首因 + 近因效应等），为后续模型评估提供基准。
理论比较矩阵：系统比较"有偏抽样分布信念"、"保守主义偏差"、"极端信念厌恶"三大推断偏差理论，指出哪些事实哪种理论能解释、哪些尚需新机制。
代表性启发式的现代经济学化：把 Kahneman-Tversky 的代表性概念与 Bordalo-Gennaioli-Shleifer (2018) 的 Diagnostic Expectations 统一刻画，给出可计算公式 $\pi(\omega_{t+1}|\omega_t) = p \cdot (p/p_{ref})^\rho \cdot Z^{-1}$ 。
方法论澄清："是过更新还是欠更新"是错问题——正确问法是"何时过、何时欠"；并指出 3 个例外情境（ $\theta_A \approx \theta_B$ 、确认信号、先验极端 + 反向信号）会产生过推断。
桥接心理学与经济学：将 Edwards 传统的心理学实验、Grether 传统的经济学实验、Kahneman-Tversky 传统的启发式研究统一到一个可对话的语言体系，并指出心理学/神经科学（好消息更新更多）与经济学实验（结果不一致）的差异是该领域重要未解之谜。
议程设定：明确列出未来研究方向（多偏差交互、信号分组的内生选择、三大理论的判别实验、实地外推、宏观调查整合），影响力深远。

维度1：综述框架与组织结构

这是《Handbook of Behavioral Economics》第2章，是关于概率推理错误和判断偏差的权威综述，涵盖了从1960年代至2018年的心理学和经济学文献，共约120页正文。

章节结构（10个主要部分）

Introduction - 概述章节范围与组织结构
Biased beliefs about random sequences - 赌徒谬误(GF)、热手偏差、小数定律(LSN)
Biased beliefs about sampling distributions - 分割依赖、样本量忽视(NBLLN)、尾部敏感性递减(SDTDS)、均值过度加权
Evidence on belief updating - 信念更新实验证据的元分析（含11个风格化事实）
Theories of biased inference - 三大理论：有偏抽样分布信念、保守主义偏差、极端信念厌恶
Base-rate neglect - 基率忽视的证据与模型
The representativeness heuristic - 代表性启发式及其经济学模型化
Prior-biased inference - 先验偏向推理（确认偏差）
Preference-biased inference - 偏好偏向推理（好消息/坏消息不对称更新）
Discussion - 建模挑战、实验室到实地的推广性、未来方向

核心组织特色

以Grether (1980)的简化模型为贯穿全章的概念框架
对bookbag-and-poker-chip实验文献进行了原创性的元分析（meta-analysis），覆盖16篇论文
总结出11个"风格化事实"（Stylized Facts）系统化信念更新偏差的证据

维度2：核心内容梳理

2.1 Grether (1980) 简化模型（全章核心框架）

贝叶斯定理的后验赔率形式：
$ $\frac{p(A|S)}{p(B|S)} = \frac{p(S|A)}{p(S|B)} \cdot \frac{p(A)}{p(B)}$ $

Grether引入的有偏更新模型：
$ $\frac{\pi(A|S)}{\pi(B|S)} = \left[\frac{p(S|A)}{p(S|B)}\right]^c \left[\frac{p(A)}{p(B)}\right]^d$ $

c 衡量似然比的使用偏差（c < 1 为欠推断/underinference，c > 1 为过推断/overinference）
d 衡量先验概率的使用偏差（d < 1 为基率忽视/base-rate neglect）
贝叶斯更新对应 c = d = 1

2.2 支持理论（Support Theory）中的分割依赖

\pi(E|\varepsilon) = \frac{s(E)}{\sum_{F \in \varepsilon} s(F)}

其中 s(.) 是支持函数，满足次可加性：
$ $s(E') + s(E'') \geq s(E' \cup E'')$ $

将事件拆分为子事件会增加总概率（"unpacking effect"）。

2.3 NBLLN模型（Non-Belief in the Law of Large Numbers）

Benjamin et al. (2016) 提出：主体相信单次抽取的概率正确（= theta），但主观抽样分布不随样本量收缩。大样本抽样分布收敛于一个"通用分布"（universal distribution），尾部过厚、均值处概率过高。

2.4 基率忽视的形式化模型

\frac{\pi(A|S)}{\pi(B|S)} = \frac{p(S|A)}{p(S|B)} \left[\frac{p(A)}{p(B)}\right]^d, \quad 0 < d < 1

在序贯更新中，旧信号被双重降权（d^2），新信号仅被降权一次（d），产生近因效应。

2.5 先验偏向推理模型

\frac{\pi(A|S)}{\pi(B|S)} = \left[\frac{p(S|A)}{p(S|B)}\right]^{c_0 + I\{\text{confirming}\} \cdot c_{\text{conf}} + I\{\text{disconfirming}\} \cdot c_{\text{disconf}}} \left[\frac{p(A)}{p(B)}\right]^d

确认偏差假设： $c_{\text{conf}} \geq 0 \geq c_{\text{disconf}}$ ，至少一个严格不等式成立。

2.6 偏好偏向推理模型

\frac{\pi(A|S)}{\pi(B|S)} = \left[\frac{p(S|A)}{p(S|B)}\right]^{c_0 + I\{\text{good news}\} \cdot c_{\text{good}} + I\{\text{bad news}\} \cdot c_{\text{bad}}} \left[\frac{p(A)}{p(B)}\right]^d

偏好偏向假设： $c_{\text{good}} > c_{\text{bad}}$ （好消息的推断强于坏消息）。

2.7 代表性模型：诊断性期望 (Bordalo, Gennaioli, Shleifer 2018)

\pi(\omega_{t+1}|\omega_t) = p(\omega_{t+1}|\omega_t) \left(\frac{p(\omega_{t+1}|\omega_t)}{p(\omega_{t+1}|f(\omega_{t-1}))}\right)^\rho \frac{1}{Z}

rho > 0 控制代表性对信念的影响强度；最具诊断性的状态被过度加权。

2.8 Griffin & Tversky (1992) 的强度-权重回归

\ln\left(\ln\left(\frac{\pi(A|S)}{\pi(B|S)}\right)\right) = \alpha_0 + \alpha_1 \ln\left(\frac{N_a - N_b}{N}\right) + \alpha_2 \ln(N) + \alpha_3 \ln\left(\ln\left(\frac{\theta}{1-\theta}\right)\right) + \epsilon

贝叶斯推理要求 alpha_1 = alpha_2 = 1。实证发现 alpha_1 > alpha_2，即样本比例（强度）比样本量（权重）影响更大。

维度3：领域评估

11个风格化事实（Stylized Facts）

关于推断方向：

欠推断是偏差的主导方向 - 元分析回归斜率 c_hat = 0.20（所有数据）至 0.38（激励实验），远小于贝叶斯基准1
样本量越大，欠推断越严重 - c_hat 随 N 单调递减
观察单个信号后，平均也存在欠推断 - N=1 时 c_hat 约 0.70-0.86
推断主要由样本比例驱动 - alpha_1 >> alpha_2，人们根据 Na/N 而非 Na - Nb 推断

关于诊断性参数：
5. "精确代表性"证据不稳健 - 样本比例等于某状态率时推断是否更强，实验结果不一致
6. 诊断性参数越大，欠推断越严重 - theta 离 0.5 越远，c_hat 越小；非对称问题中 theta_A 和 theta_B 接近时可能出现过推断

关于先验信息使用：
7. 基率忽视 - d_hat 约 0.60（所有数据）至 0.43（激励实验），人们系统性地低估先验信息
8. 序贯样本中人们不进行"汇总" - 信号的分组方式影响后验信念（非贝叶斯预测）
9. 序贯更新中既欠推断又存在基率忽视

关于序列效应：
10. 首因效应 - 序列早期观察到的信号对最终信念影响更大
11. 近因效应 - 最近观察到的信号也对最终信念影响更大（两者可共存）

关于随机序列的信念偏差

赌徒谬误 (Gambler's Fallacy): 人们错误地预期i.i.d.过程会出现反转，源于小数定律(LSN)
热手偏差 (Hot-Hand Bias): 人们过度相信连续成功意味着"手感好"。Miller & Sanjurjo (2014, 2017)发现此前关于"篮球无热手"的结论存在统计偏差
GF和热手偏差可以共存: Rabin & Vayanos (2010) 模型化了两者的共存机制

关于抽样分布的信念偏差

分割依赖/次可加性: 将事件拆分为子事件会增加总概率（普遍且稳健）
样本量忽视: 人们构建的抽样分布与样本量无关（"通用分布"）
尾部过厚: 相对正确分布，人们认为极端结果更可能出现
均值过度加权: 抽样分布在均值附近也赋予过多权重（W形分布）
序列信念与分布信念内在不一致: 同一被试对相同随机过程的序列判断和分布判断不一致

三大推断偏差理论的比较

理论	核心机制	能解释N=1欠推断？	能解释更大N更严重？
有偏抽样分布信念	主观抽样分布过扁	否	是
保守主义偏差	似然比被低估权重 (c<1)	是	需额外假设
极端信念厌恶	厌恶接近0或1的信念	是	是

Benjamin的判断：三种理论各有支持证据，需要设计实验来区分它们并评估各自的相对重要性。

关于偏好偏向推理

经济学文献中bookbag-and-poker-chip实验的结果互相矛盾（三篇发现好消息推断更强，三篇发现坏消息推断更强，五篇无差异）
心理学/神经科学文献基于不同实验设计，几乎一致发现好消息更新更多
差异原因不清楚，是该领域的重要未解之谜

关于"过度还是不足更新"的总结

Benjamin的核心观点：问"人们是更新太多还是太少"是错误的问题；正确的问题是"什么时候更新太多，什么时候更新太少"。总体而言：

大多数情况下人们更新不足
三个例外导致过度更新：(1) theta_A 和 theta_B 接近时过推断；(2) 确认信号导致先验偏向过推断；(3) 先验极端且信号方向相反时基率忽视导致相对过推断

维度5：与其他文献的关系

在行为经济学信念偏差文献中的地位

这是该领域的标准参考文献和权威综述。作为Handbook of Behavioral Economics的章节，它：

首次对bookbag-and-poker-chip实验文献进行了系统性元分析，覆盖1960年代到2018年的16篇关键论文
提出了统一的概念框架（Grether模型的扩展版本），将多种偏差纳入同一分析体系
系统总结了11个风格化事实，为后续实证和理论研究提供了基准
桥接了心理学文献（Edwards, Kahneman & Tversky传统）和经济学文献（Grether传统）

与其他关键文献的关系

理论基础: Kahneman & Tversky (1972a, 1973), Edwards (1968), Grether (1980, 1992)
核心模型: Benjamin et al. (2016) NBLLN, Benjamin et al. (2018a) Base-Rate Neglect, Rabin (2002) LSN, Rabin & Vayanos (2010) GF/Hot-hand
代表性建模: Tenenbaum & Griffiths (2001), Gennaioli & Shleifer (2010), Bordalo et al. (2016, 2018)
先验偏向: Rabin & Schrag (1999), Charness & Dave (2017)
偏好偏向: Mobius et al. (2014), Eil & Rao (2011)
实验方法学: Griffin & Tversky (1992), Augenblick & Rabin (2018)

研究空白与未来方向（Benjamin本人强调）

需要同时研究多种偏差的交互作用（如先验偏向 vs 基率忽视）
需要更多关于人们如何分组信号的证据（"acceptive" vs "pooling"）
需要区分三种推断偏差理论的实验
需要更多实地研究来验证实验室发现的推广性
需要与宏观经济学中的预期形成文献和调查测量文献进行整合

对实验设计的方法论启示

分割依赖（partition dependence）是所有信念诱导实验的潜在混淆因素
极端信念厌恶是信念更新实验的潜在混淆因素
信号的分组呈现方式会影响结果（非贝叶斯预测）
激励可以减少但不能消除偏差

维度4：局限性

元分析样本主要限于 bookbag-and-poker-chip 实验：尽管这是经典范式，但实验素材高度抽象（袋子摸球），可能低估"自我相关"或"价值负载"情境下的偏差强度，外部效度受限。
三大推断理论无法被现有数据严格区分：作者承认"有偏抽样分布信念"、"保守主义"、"极端信念厌恶"三种理论各能解释部分事实，但缺少对偏差源头的判别性实验。
Grether $(c, d)$ 模型本身是约简型：参数 $c, d$ 不直接对应心理机制（注意力？记忆？计算？），不同情境下估计值的可比性有限。
多种偏差的交互作用未被系统建模：现实信念更新可能同时涉及基率忽视、确认偏差、好/坏消息不对称，但综述中各章节几乎独立处理，未给出多偏差并存的统一估计模型。
"信号如何被分组"是模型外生条件：贝叶斯无偏性预测对信号分组方式不变，而实验显示分组影响后验。Benjamin 指出这一点重要但未提供理论方案。
GF 与 Hot-Hand 的统一机制仍开放：Rabin-Vayanos (2010) 等模型给出共存机制，但实证识别"何时人会预期反转、何时人会预期持续"的边界条件不清楚。
激励的有限作用未被充分讨论：尽管激励能减小 $|c-1|$ 、 $|d-1|$ ，但偏差在重激励下仍显著存在；激励边际效应递减的微观机制有待研究。
心理学/经济学好坏消息证据的不一致未解：作者明确指出"为何心理学发现一致的好消息不对称、经济学发现不一致"是重大谜题，本章只能列出而无法解决。
缺少对宏观/金融预期形成数据的元分析：综述聚焦实验文献，对调查数据 (e.g., Survey of Professional Forecasters)、市场内含预期的偏差证据涉及较少。
实地外推性的证据有限：实验室偏差能否在高风险、长时程的金融、健康、政治决策中复现，本章只能定性讨论。

维度6：可拓展的研究方向

多偏差联合估计：开发能同时识别基率忽视、确认偏差、好坏消息不对称、序列效应的统一似然函数，应用于实验与调查数据。
代表性 vs. 保守主义的判别实验：设计参数空间扫描实验，使两种理论在某些 $(\theta, N)$ 组合下做出相反预测，检验真实数据更接近哪种。
信号分组的内生模型：建模主体如何决定将信号"汇总"还是"分开看"，并将分组规则与认知负荷、动机性偏差联系。
GF/Hot-Hand 的边界条件：在场域数据（赌博、体育、金融交易）中识别 GF 与 Hot-Hand 切换的触发条件（连续长度、结果显著性、心理熟悉度）。
NBLLN 在金融市场的应用：将"对大数定律不信任"嵌入资产定价模型，研究其对波动率溢价、长期投资者行为、风险溢价之谜的解释力。
诊断性期望 (Diagnostic Expectations) 的实地校准：在企业盈利、宏观增长、消费者预期等数据上结构估计 $\rho$ ，比较不同领域的代表性强度。
机器学习作为基准：用 LLM、GPT 等模拟"贝叶斯近似主体"，对比人类主体在 bookbag 等任务中的偏差，识别人类特有的偏差源。
神经成像桥接：将神经科学（Sharot, Korn）发现与 Grether $(c_{\text{good}}, c_{\text{bad}})$ 估计对接，识别大脑活动与参数估计的因果关系。
多智能体推断与社会学习：当主体观察其他主体的信念，是否放大或抵消基率忽视、确认偏差？建模社会网络中的偏差传染。
干预实验：设计教育、训练、信息呈现方式的干预（如频率呈现 vs. 概率呈现、可视化抽样），定量识别哪些干预能有效缩小偏差。

关键结论

欠推断（underinference）是平均水平上的主导偏差：基于 16 项研究的元分析，似然比加权指数 $\hat{c} \approx 0.20$ - $0.38$ ，远小于贝叶斯基准 1。但这是平均事实，存在重要例外。
基率忽视普遍且稳健：先验信息加权指数 $\hat{d} \approx 0.43$ - $0.60$ ，激励能减小但不能消除该偏差。
样本量越大、欠推断越严重：随 $N$ 增加， $\hat{c}$ 单调下降；这与代表性启发式（关注比例 $N_a/N$ 而忽视 $N$ ）一致。
强度（比例）压倒权重（样本量）：Griffin-Tversky 回归显示 $\alpha_1 \gg \alpha_2$ ，即人们主要根据样本比例而非样本量推断。
首因与近因效应共存：序贯信号中早期与晚期信号都比中期信号影响更大，需要同时考虑序列位置效应和基率忽视的双重降权机制。
过推断的三个例外情境：(1) $\theta_A \approx \theta_B$ 时；(2) 信号确认先验（确认偏差）时；(3) 先验极端而信号反向时（基率忽视的相对效应）。
赌徒谬误与热手偏差可共存：Rabin-Vayanos (2010) 模型表明两者并不矛盾，源于"小数定律 (LSN)"的统一机制。
抽样分布信念的"通用分布"特征：人们构建的主观抽样分布在大 $N$ 下不收敛，呈现尾部过厚 + 均值过度加权的 W 形，这是 NBLLN 模型的关键预测。
好/坏消息不对称在心理学一致、在经济学不一致：心理学/神经科学几乎一致发现好消息更新更多；经济学 bookbag 实验结果矛盾。该差异原因不清楚，是该领域重要未解之谜。
正确的研究问题不是"过还是欠"，而是"何时过、何时欠"：未来研究应聚焦于偏差的环境依赖与触发条件，而非寻找单一方向的"普遍"偏差。
该综述提供的 11 个风格化事实是后续理论必须解释的基准：任何新的信念更新模型若不能解释这些事实，将难以被接受。

Benjamin_2019_ErrorsProbabilisticReasoning_Handbook