Enke_Graeber_2023_CognitiveUncertainty

更新于 2026/7/5

Cognitive Uncertainty

作者: Benjamin Enke, Thomas Graeber
期刊: The Quarterly Journal of Economics, Vol. 138, Issue 4, 2021-2067
年份: 2023
DOI: https://doi.org/10.1093/qje/qjad025


一句话总结

提出并实证检验"认知不确定性"(cognitive uncertainty, CU)这一极简测量概念——决策者对自身效用最大化决策的主观不确定性——并证明CU能跨风险选择、信念更新、经济预期三大领域统一解释概率加权、似然不敏感性、保守主义等行为异象,且决策会向"认知默认值"(约0.4-0.5的中间值)压缩。

研究问题

为什么决策者在面对概率性问题时系统性地偏离规范性基准(如期望效用最大化、Bayes后验),呈现概率加权(probability weighting)、base rate忽略、保守主义等"压缩"模式?这些偏差是固定偏好参数,还是反映了决策者对自身决策正确性的认知不确定性?能否用单一可测量的认知机制统一解释这些跨领域的行为异象?

核心贡献

  1. 测量创新: 提出仅一道问题的CU测量法("你有多确定你的决策在 ±κ 窗口内是最优的"),可零成本嵌入任何实验/调查。
  2. 统一解释框架: 用CU这一单一变量同时解释(i)风险选择中的概率加权与四重模式、(ii)信念更新中的base rate不敏感性与保守主义、(iii)股市/通胀/收入预期的向中间压缩。
  3. 因果证据: 通过外生复杂性操纵(复杂数字表达式、compound彩票/信念)证明问题复杂性 → 增加CU → 加剧压缩,挑战"固定偏好参数"模型。
  4. 结构估计: 在贝叶斯认知噪声框架下估计认知默认值 d \approx 0.4(风险)和 d \approx 0.5(信念),量化"中心趋势效应"。
  5. 稳健事实: 文档化CU的普遍性(>83%决策CU>0)、被试内稳定性(重测 r≈0.7)、跨领域相关性、以及与决策变异性、与最优决策距离的对应关系。

维度1:实验设计分析

实验任务详细流程

本文包含两组实验(A组和B组),涵盖三个决策领域:风险选择(Risk)、信念更新(Beliefs)和经济预期(Economic Forecasts)。总样本超过3,000名被试。

实验一:Risk A(风险选择,基线 + 复杂数字操纵)

被试池: Prolific平台,N = 500

任务流程:

  1. 指导语阶段: 被试阅读关于彩票估值任务的说明,并通过理解检查题和注意力检查题(53%的潜在被试被筛除)。
  2. 彩票估值任务(6轮基线):
    • 被试看到一个二元彩票,形式为"以概率 p 获得 $y,否则获得 $0"。
    • 概率 p 从集合 {1, 5, 10, 25, 35, 50, 65, 75, 90, 95, 99}% 中随机抽取;金额 $y 从 {15, 16, ..., 25} 中随机抽取。
    • 被试在文本框中直接输入一个美元金额作为其确定性等价(certainty equivalent),范围限制在 $0 到彩票上限之间。采用Healy (2018)的BDM机制:告知被试系统会自动生成一个choice list,找到其从偏好彩票切换为偏好安全支付的金额。
    • 每轮彩票估值后,立即进入认知不确定性(CU)测量界面

      "你在上一屏的决定表明你认为这个彩票等价于确定获得 $x。你有多确定你对这个彩票的真实估值在 $(x-0.50) 和 $(x+0.50) 之间?"

    • 被试通过单选按钮选择0%-100%(步长5%)的确定性水平。
  3. 复杂数字操纵(between-subjects): 完成6轮基线后,一半被试被随机分配到再做6轮基线任务,另一半做6轮"复杂数字"任务。复杂数字条件下,概率以数学表达式呈现(如"(7 x 6 / 2 - 11)%"而非"10%"),计算上等价但认知负担更大。
  4. 经济预期问题: 所有被试回答关于S&P 500一年后回报率的概率预测问题(见下文)。
  5. Raven矩阵测试: 激励性的认知能力测试。
  6. 人口统计问卷。

激励机制:

  • 完成费 $3。
  • 30%概率下,一个随机选择的彩票估值任务按BDM机制实现真实支付。
  • 70%概率下,Raven矩阵测试有激励支付。
  • Risk A 平均收入 $8.10。

实验二:Beliefs A(信念更新,基线 + 复杂数字操纵)

被试池: Prolific平台,N = 500

任务流程:

  1. 指导语阶段: 被试学习"balls-and-urns"(袋子与球)范式的规则,通过理解检查和注意力检查(54%被筛除)。
  2. 信念更新任务(6轮基线):
    • 屏幕展示两个袋子(Bag A 和 Bag B),各含100个球(红球和蓝球)。
    • 电脑根据预设的先验概率(base rate)b 随机选择一个袋子。被试不知道选中了哪个。b 从集合 {1, 5, 10, 30, 50, 70, 90, 95, 99}%(表示选中Bag A的概率)中抽取,操作化为100张卡片中写有"bag A"的数量。
    • 信号诊断性(diagnosticity)d 从 {65, 75, 90} 中抽取,表示 P(red|A) = P(blue|B)。只使用对称信号结构。
    • 电脑从选中的袋子中有放回地随机抽取 M 个球(M 从 {1, 3, 5} 中抽取),展示给被试。
    • 被试输入其对"Bag A被选中"的概率判断(0-100%之间的整数)。
    • 随后立即出现CU测量界面

      "你在上一屏的回答表明你认为有 x% 的概率选中了Bag A。你有多确定最优猜测在 (x-1)% 和 (x+1)% 之间?"

      • 指导语解释了"最优猜测"的含义:利用概率法则(贝叶斯法则)计算出的统计学正确答案,且强调这不依赖被试不具备的信息。
    • 被试通过单选按钮选择0%-100%(步长5%)。
  3. 复杂数字操纵(between-subjects): 与Risk A类似,一半被试做额外6轮基线,另一半做复杂数字版(base rate或diagnosticity以数学表达式呈现)。

激励机制:

  • 采用Hossain and Okui (2013)的二值化评分规则:获得 $10 奖金的概率为 \pi = \max\{0, 1 - 0.0001 \cdot (g - t)^2\},其中 g 为被试猜测(%),t 为真实状态(0或100)。
  • Beliefs A 平均收入 $4.80。

实验三:经济预期(嵌入所有实验中)

任务流程:

  • 所有实验(N = 1,000 在A组中)都包含S&P 500回报率预期问题。
  • 被试看到如下问题:

    "S&P 500是一个包含美国500家最大公司的股票指数。Jon今天在S&P 500投资了100。他的投资在一年后价值低于y的概率是多少?"

    • y 从集合 {62, 77, 90, 100, 112, 123, 127, 131, 134} 中随机抽取。这些值对应的历史概率(1980-2018)从1%到99%不等。
  • 被试输入概率估计后,CU测量问题为:

    "你在上一屏表示你认为有 x% 的概率投资价值低于 $y。你有多确定最优猜测在 (x-1)% 和 (x+1)% 之间?"

  • 无金融激励(与大多数预期调查文献一致)。

实验四:Risk B 和 Beliefs B(早期实验,AMT平台)

被试池: Amazon Mechanical Turk,Risk B: N = 700, Beliefs B: N = 700

主要差异:

  • Risk B: 使用标准可视化多重价格列表(MPL/choice list)来引出确定性等价,而非BDM机制。包含收益和损失彩票。复杂性操纵采用"compound lottery"(复合彩票)而非复杂数字:被试被告知获得奖金的概率未知,将从一个已知区间均匀分布中随机抽取(规范上等价于基线概率)。在被试内设计中随机穿插基线和compound问题。
  • Beliefs B: 复杂性操纵采用"compound belief updating"(复合信念更新):diagnosticity h 变为 h' ~ U{h-0.1, ..., h+0.1},贝叶斯后验不变但计算更复杂。
  • CU测量差异: B实验使用滑块(slider)而非单选按钮。Risk B 中被试校准"我确定这个彩票的价值在 a 和 b 之间"的说法,滑块最右端时 a 和 b 等于其先前给出的确定性等价;每移动一格,a 减少$0.25,b 增加$0.25(共20格)。Beliefs B 类似,每格1个百分点(共30格)。

其他实验设计要素

要素 内容
实验类型 线上实验(Prolific + AMT),个体决策
Treatment设计 A组:between-subjects(基线 vs 复杂数字);B组:within-subjects(基线与compound穿插)+ between-subjects的部分设计
随机化 彩票参数(p, y)、信念更新参数(b, d, M)、经济预期阈值(y)均在被试间/被试内随机化;复杂性条件在被试间随机分配
观测变量 确定性等价(CE)、后验概率判断、经济预期概率、认知不确定性(CU,0-100%)、决策变异性、Raven分数、人口统计
因果识别 (1) 利用CU的个体内/个体间变异预测决策压缩(相关性分析);(2) 通过外生复杂性操纵因果性地增加CU,验证CU反映问题复杂性
样本量 Risk A: 500, Beliefs A: 500, Risk B: 700, Beliefs B: 700;总计 > 3,000
激励机制 风险选择用BDM/MPL机制;信念更新用二值化评分规则;经济预期无激励;CU测量故意不激励(减轻认知负担、降低博弈性)
亮点 (1) CU测量极其简单(一个问题),可直接嵌入任何实验/调查;(2) 跨三个决策领域统一解释多种行为异象;(3) 外生复杂性操纵提供因果证据;(4) 重复测量允许IV分析排除测量误差
局限 (1) CU测量无金融激励,可能引入噪声;(2) 没有关于"认知默认值"d 如何决定的理论;(3) 无法区分CU的具体来源(感知噪声、规则无知、计算困难等);(4) 基于description的结果未必推广到experience-based决策

维度2:理论模型

基准理论

标准期望效用理论假设决策者精确知道其效用最大化决策 a^*(p),不存在任何关于自身决策正确性的主观不确定性。

行为偏差的形式化:贝叶斯认知噪声模型

核心框架: 决策者(DM)拥有伯努利效用函数 u(\cdot),需要做出依赖于客观概率 p 的决策 a。DM无法直接获得 a^*(p),只能通过有噪声的认知信号进行"心理模拟"。

认知信号: DM获得一个关于 a^*(p) 的(缩放后的)二项分布信号 S,精度为 N,满足:
$E[S] = a^*(p)$

决策规则(核心公式):

a^o = \lambda(N) \cdot s + [1 - \lambda(N)] \cdot d \tag{1}
E[a^o] = \lambda(N) \cdot a^*(p) + [1 - \lambda(N)] \cdot d \tag{2}

其中:

  • a^o 为观察到的决策
  • s 为认知信号的实现值
  • \lambda(N) 为信号权重,随精度 N 递增(\lambda(N) \in [0,1]
  • d 为"认知默认值"(cognitive default),即无任何思考时DM会做出的"中间"决策(prior mean)
  • a^*(p) 为效用最大化决策

三个领域的具体化:

  1. 风险选择: a^* = u^{-1}(p)(标准化 u(1)=1),归一化CE应等于概率 p(风险中性时)。
  2. 信念更新: 贝叶斯后验 p = \frac{bh}{bh + (1-b)(1-h)},Grether分解:\ln\frac{p}{1-p} = \ln\frac{b}{1-b} + \ln\frac{h}{1-h}
  3. 经济预期: DM基于过去信息形成后验 p,最优报告 a^* = p

认知不确定性的形式定义:

p_{CU} \equiv P(|a^*|S=s] - a^o| > \kappa) \tag{3}

即CU是DM认为其效用最大化决策落在实际决策周围 \kappa 窗口之外的主观概率。CU随认知噪声增加而增加(即 N 减小时CU增大)。

结构估计方程:

a^o = \underbrace{\max\{1 - \gamma p_{CU}; 0\}}_{\lambda} \cdot a^*(p) + \underbrace{\min\{\gamma p_{CU}; 1\}}_{1-\lambda} \cdot d + \epsilon \tag{4}

其中 \gamma 为待估参数,p_{CU} 为观测到的认知不确定性。

关键假设

  1. 认知噪声是决策复杂性的函数:问题越复杂,信号精度 N 越低。
  2. 认知默认值 d 是"中间值"(intermediate):对于低概率 a^*(p) < d,对于高概率 a^*(p) > d
  3. CU是认知噪声的可观测代理变量(proxy),而非直接原因。

可检验预测

  • 预测 i(a): 风险选择中,CU与概率加权相关——低概率时CE随CU增加而增加,高概率时CE随CU增加而减少("翻转"效应)。
  • 预测 i(b): 信念和预期中,CU与高估小概率、低估大概率相关;在Grether分解中,CU与base rate不敏感性和保守主义相关。
  • 预测 ii: 决策与效用最大化决策之间的距离随CU增加而增大。

结构估计

采用非线性最小二乘法在总体层面估计公式(4):

  • 认知默认值 d 在信念更新实验中约为0.50,在风险选择中约为0.40-0.43。
  • 纳入CU的模型相比限制模型(p_{CU}=0)大幅降低AIC(如Risk A中AIC从18,958降至18,477;Beliefs A中从211降至-936)。

维度3:核心发现

主要结论

  1. CU普遍存在且变异巨大: 83%的风险选择决策、93%的信念更新决策、97%的股市预期与严格正的CU相关联。CU在被试间和任务间呈现大量异质性。

  2. CU的稳定性:

    • 被试内重测相关:r = 0.70(Risk A),r = 0.68(Beliefs A)。
    • 跨领域Spearman相关:\rho = 0.19(风险-股市),\rho = 0.35(信念-股市),p < .01
    • 51%-54%的CU变异由被试固定效应解释。
  3. CU预测压缩效应(核心发现):

    • 风险选择: CU从0%增加到50%,确定性等价对支付概率的斜率下降33.5个百分点(Table III)。低CU被试的中位决策几乎看不出概率加权;高CU被试呈现强烈的概率加权/似然不敏感性。CU预测"四重模式"(fourfold pattern):高CU决策在低概率时更追求风险、高概率时更规避风险。
    • 信念更新: CU从0%增加到50%,信念对贝叶斯后验的斜率下降21个百分点(Table IV)。CU强烈预测base rate不敏感性(base rate sensitivity从0.69降至0.43)和保守主义(conservatism)。
    • 股市预期: CU强烈预测预期向50:50压缩(Online Appendix Table 9验证)。通胀预期和收入分布预期呈现类似模式。
  4. CU与最优决策的距离: CU与决策偏离规范基准的绝对距离显著正相关(Spearman \rho = 0.31 风险选择,\rho = 0.17 信念更新,\rho = 0.21 股市预期,均 p < .01)。

  5. CU与决策变异性: CU与同一问题两次重复间的绝对差异显著相关(Spearman \rho = 0.27 风险选择,\rho = 0.30 信念更新,p < .01),验证CU确实反映认知噪声。

  6. 复杂性因果性地增加CU和压缩:

    • 复杂数字操纵使CU增加45%(风险选择)和48%(信念更新)。
    • Compound操纵使CU增加23%(风险选择)和33%(信念更新)。
    • 复杂条件下的决策更加向中间值压缩,概率加权和信念更新偏差更加严重。
  7. 认知默认值估计: 结构估计显示 d \approx 0.50(信念更新)和 d \approx 0.40(风险选择),与心理学中"中心趋势效应"和"折中效应"文献一致。

  8. 人口统计学关联: 女性CU高5-11个百分点;年龄与CU轻微负相关;认知能力(Raven分数、教育程度)与CU基本无关。

稳健性

  • 使用MPL(B实验)与BDM(A实验)引出方法结果一致。
  • 收益和损失彩票均成立。
  • IV分析(用重复测量的CU互相工具变量)排除测量误差担忧,结果几乎不变。
  • 在AMT和Prolific两个平台上结果一致。
  • A实验和B实验使用不同CU问卷措辞,结果定性一致。

与其他研究的比较

  • 与 Khaw, Li, and Woodford (2021) 的认知不精确模型预测一致,但本文直接测量噪声意识(CU),而非仅建模噪声。
  • 与 Frydman and Jin (2022) 的efficient coding模型互补。
  • 挑战了前景理论(Tversky and Kahneman 1992)中概率加权是固定偏好参数的观点——本文表明它随问题复杂性变化。
  • 挑战了base rate忽略和保守主义是固定参数偏差的模型(如Benjamin 2019综述中的讨论)。

维度6:与其他文献的关系

领域位置

本文位于行为经济学决策理论的交叉领域,具体涉及:

  • 风险决策中的概率加权
  • 实验室信念更新偏差
  • 主观经济预期的异质性
  • 认知噪声/有限注意力模型的实证检验

对话论文

论文 对话关系
Khaw, Li, and Woodford (2021) 贝叶斯认知不精确模型,本文用CU实证检验其核心预测
Gabaix (2019) 稀疏注意力模型,提供概率加权的注意力解释
Frydman and Jin (2022) Efficient coding与风险选择,互补视角
Tversky and Kahneman (1992) 累积前景理论的概率加权函数,本文证明其非固定偏好而是认知噪声产物
Benjamin (2019) 信念更新偏差综述,本文用CU统一解释多种偏差
Woodford (2020) 感知/估值/选择中的不精确性建模
Oprea (2022) 独立发现复杂性驱动概率加权,与本文CU相关性高度一致
Enke, Graeber, and Oprea (2023) 后续工作:CU在跨期选择中的角色
Agranov and Ortoleva (2017, 2020) 随机选择与随机化偏好,CU测量是介于Likert量表和跨试次变异性之间的中间方案
Viscusi (1985, 1989) 早期关于概率加权反映贝叶斯噪声的理论

新贡献

  1. 测量创新: 提出了一个极其简单、快速、零成本的认知不确定性测量方法,可直接嵌入任何实验或调查。
  2. 统一解释: 首次用单一概念(认知噪声及其代理CU)将概率加权、base rate不敏感性、保守主义、样本量效应、经济预期中的过度乐观/悲观等看似不同的行为异象统一起来。
  3. 因果证据: 通过外生复杂性操纵(复杂数字、复合问题),因果性地证明问题复杂性增加CU并加剧压缩效应——直接挑战固定参数偏差模型。
  4. 实证规律: 文档化了CU的大量跨领域事实:普遍性、稳定性、人口统计关联、与决策变异性的对应关系。
  5. 结构估计: 直接估计了"认知默认值"d(约0.4-0.5),量化了中心趋势效应的大小。

维度4:变量概览

变量类别 变量名 测量方式 取值范围
核心解释变量 认知不确定性 CU 单题问卷(被试报告其决策在±κ窗口内的主观概率),单选按钮或滑块 0–100%
结果变量(风险) 确定性等价 CE BDM机制(A实验)/MPL(B实验)引出 $0 到彩票上限
结果变量(信念) 后验概率判断 g 直接输入0-100整数 0–100%
结果变量(预期) S&P 500回报概率 直接输入概率估计 0–100%
规范基准 客观概率 p / Bayes后验 / 历史概率 实验参数或历史数据计算 0–100%
复杂性操纵(A) 复杂数字(数学表达式 vs 直接数字) between-subjects 二值
复杂性操纵(B) Compound vs simple lottery/belief within/between-subjects 二值
决策变异性 同一题目两次回答的绝对差异 重复测量 连续
认知能力 Raven矩阵分数 激励性测试 计数
人口统计 年龄、性别、教育、收入 问卷 类别/连续
结构参数 认知默认值 d NLS估计 [0,1]
结构参数 CU权重系数 γ NLS估计 标量

维度5:局限性

  1. CU测量无金融激励: 为减轻被试认知负担和博弈性而故意不激励,但可能引入随机噪声;作者用IV分析(重复测量互为工具变量)部分缓解。
  2. 认知默认值 d 缺乏微观基础: 模型外生设定 d 为"中间值",但未理论化解释 d 如何由问题表征、视觉锚点、文化默认值等决定。
  3. 无法区分CU的具体来源: CU可能来自感知噪声、规则无知(不会用Bayes法则)、计算困难、或对参数的不确定性,本文不区分这些机制。
  4. 基于description的范式: 所有任务(彩票、袋子球、概率预测)均以描述形式呈现,结果未必推广到experience-based learning(如重复抽样)情境。
  5. CU与决策的内生性: CU与决策同时由被试报告,可能存在共同测量误差;尽管IV分析缓解,但无法完全排除。
  6. 样本特征: Prolific和AMT样本偏年轻、教育较高,外部效度需谨慎;金融市场实际投资者可能呈现不同CU模式。
  7. 静态测量: CU为决策时点的瞬时测量,未捕获决策过程中CU的动态变化(如思考时间增加 → CU变化)。

维度7:可拓展的研究方向

  1. CU的理论微观基础: 将CU内生化为信息成本、注意力分配、记忆提取的均衡结果(如理性不注意框架下的内生CU)。
  2. 认知默认值 d 的决定因素: 实验研究 d 如何受问题表征(数字 vs 视觉)、文化背景(中位数 vs 极值)、社会信号(他人决策)影响。
  3. CU在跨期决策与社会偏好中的角色: Enke, Graeber, and Oprea (2023) 已扩展到跨期选择,可进一步扩展到社会偏好(如不平等厌恶下的捐赠决策)、战略博弈(认知层级模型)。
  4. CU与市场结果: 将CU作为家庭金融决策(投资组合分散化、股市参与、保险购买)的解释变量;研究CU高的投资者是否更易被金融产品的复杂结构性特征误导。
  5. CU的减少干预: 实验测试简化沟通、可视化工具、AI助手是否能降低CU并改善决策;与金融素养教育的交互。
  6. CU的神经/生理基础: 用fMRI、皮电反应、瞳孔扩张等测量CU的神经相关物,验证其作为认知噪声代理变量的有效性。
  7. CU与机器学习决策: AI/算法推荐如何影响人类CU?人机协作中CU的传递与校准。
  8. 政策应用: 在公共政策(养老金选择、医保选择、税务申报)中嵌入CU测量,识别需要简化或助推的决策环节。

关键标签

#cognitive_uncertainty #probability_weighting #belief_updating #cognitive_noise #compression #bounded_rationality #experiment #behavioral_economics #risk #expectations

关键结论

  1. 认知不确定性是一种可测量、稳定且广泛存在的决策特征: 一道极简问题即可量化决策者对自身决策正确性的主观不确定性,>83% 决策伴随严格正的CU,被试内重测相关达 0.7 左右。
  2. CU统一解释多领域行为异象的"压缩"机制: 高CU决策系统性地从规范基准向认知默认值(约0.4-0.5的中间值)压缩,自然产生概率加权、似然不敏感性、base rate忽略、保守主义、预期向50:50收敛等模式——这些不再是独立的固定参数偏差,而是同一认知噪声机制的不同表现。
  3. 复杂性是CU的因果驱动者,固定参数偏差观点受挑战: 外生增加问题复杂性使CU上升23%-48%并加剧压缩,证明所谓"概率加权函数"等参数实际随问题环境变化,前景理论等固定偏好模型的参数稳定性假设需要重新审视。