Cognitive Uncertainty

作者： Benjamin Enke, Thomas Graeber
期刊： The Quarterly Journal of Economics, Vol. 138, Issue 4, 2021-2067
年份： 2023
DOI： https://doi.org/10.1093/qje/qjad025

一句话总结

提出并实证检验"认知不确定性"（cognitive uncertainty, CU）这一极简测量概念——决策者对自身效用最大化决策的主观不确定性——并证明CU能跨风险选择、信念更新、经济预期三大领域统一解释概率加权、似然不敏感性、保守主义等行为异象，且决策会向"认知默认值"（约0.4-0.5的中间值）压缩。

研究问题

为什么决策者在面对概率性问题时系统性地偏离规范性基准（如期望效用最大化、Bayes后验），呈现概率加权（probability weighting）、base rate忽略、保守主义等"压缩"模式？这些偏差是固定偏好参数，还是反映了决策者对自身决策正确性的认知不确定性？能否用单一可测量的认知机制统一解释这些跨领域的行为异象？

核心贡献

测量创新： 提出仅一道问题的CU测量法（"你有多确定你的决策在 ±κ 窗口内是最优的"），可零成本嵌入任何实验/调查。
统一解释框架： 用CU这一单一变量同时解释（i）风险选择中的概率加权与四重模式、（ii）信念更新中的base rate不敏感性与保守主义、（iii）股市/通胀/收入预期的向中间压缩。
因果证据： 通过外生复杂性操纵（复杂数字表达式、compound彩票/信念）证明问题复杂性 → 增加CU → 加剧压缩，挑战"固定偏好参数"模型。
结构估计： 在贝叶斯认知噪声框架下估计认知默认值 $d \approx 0.4$ （风险）和 $d \approx 0.5$ （信念），量化"中心趋势效应"。
稳健事实： 文档化CU的普遍性（>83%决策CU>0）、被试内稳定性（重测 r≈0.7）、跨领域相关性、以及与决策变异性、与最优决策距离的对应关系。

维度1：实验设计分析

实验任务详细流程

本文包含两组实验（A组和B组），涵盖三个决策领域：风险选择（Risk）、信念更新（Beliefs）和经济预期（Economic Forecasts）。总样本超过3,000名被试。

实验一：Risk A（风险选择，基线 + 复杂数字操纵）

被试池： Prolific平台，N = 500

任务流程：

指导语阶段： 被试阅读关于彩票估值任务的说明，并通过理解检查题和注意力检查题（53%的潜在被试被筛除）。
彩票估值任务（6轮基线）：
- 被试看到一个二元彩票，形式为"以概率 p 获得 $y，否则获得 $0"。
- 概率 p 从集合 {1, 5, 10, 25, 35, 50, 65, 75, 90, 95, 99}% 中随机抽取；金额 $y 从 {15, 16, ..., 25} 中随机抽取。
- 被试在文本框中直接输入一个美元金额作为其确定性等价（certainty equivalent），范围限制在 $0 到彩票上限之间。采用Healy (2018)的BDM机制：告知被试系统会自动生成一个choice list，找到其从偏好彩票切换为偏好安全支付的金额。
- 每轮彩票估值后，立即进入认知不确定性（CU）测量界面：
  
  "你在上一屏的决定表明你认为这个彩票等价于确定获得 $x。你有多确定你对这个彩票的真实估值在 $(x-0.50) 和 $(x+0.50) 之间？"
- 被试通过单选按钮选择0%-100%（步长5%）的确定性水平。
复杂数字操纵（between-subjects）： 完成6轮基线后，一半被试被随机分配到再做6轮基线任务，另一半做6轮"复杂数字"任务。复杂数字条件下，概率以数学表达式呈现（如"(7 x 6 / 2 - 11)%"而非"10%"），计算上等价但认知负担更大。
经济预期问题： 所有被试回答关于S&P 500一年后回报率的概率预测问题（见下文）。
Raven矩阵测试： 激励性的认知能力测试。
人口统计问卷。

激励机制：

完成费 $3。
30%概率下，一个随机选择的彩票估值任务按BDM机制实现真实支付。
70%概率下，Raven矩阵测试有激励支付。
Risk A 平均收入 $8.10。

实验二：Beliefs A（信念更新，基线 + 复杂数字操纵）

被试池： Prolific平台，N = 500

任务流程：

指导语阶段： 被试学习"balls-and-urns"（袋子与球）范式的规则，通过理解检查和注意力检查（54%被筛除）。
信念更新任务（6轮基线）：
- 屏幕展示两个袋子（Bag A 和 Bag B），各含100个球（红球和蓝球）。
- 电脑根据预设的先验概率（base rate）b 随机选择一个袋子。被试不知道选中了哪个。b 从集合 {1, 5, 10, 30, 50, 70, 90, 95, 99}%（表示选中Bag A的概率）中抽取，操作化为100张卡片中写有"bag A"的数量。
- 信号诊断性（diagnosticity）d 从 {65, 75, 90} 中抽取，表示 P(red|A) = P(blue|B)。只使用对称信号结构。
- 电脑从选中的袋子中有放回地随机抽取 M 个球（M 从 {1, 3, 5} 中抽取），展示给被试。
- 被试输入其对"Bag A被选中"的概率判断（0-100%之间的整数）。
- 随后立即出现CU测量界面：
  
  "你在上一屏的回答表明你认为有 x% 的概率选中了Bag A。你有多确定最优猜测在 (x-1)% 和 (x+1)% 之间？"
  - 指导语解释了"最优猜测"的含义：利用概率法则（贝叶斯法则）计算出的统计学正确答案，且强调这不依赖被试不具备的信息。
- 被试通过单选按钮选择0%-100%（步长5%）。
复杂数字操纵（between-subjects）： 与Risk A类似，一半被试做额外6轮基线，另一半做复杂数字版（base rate或diagnosticity以数学表达式呈现）。

激励机制：

采用Hossain and Okui (2013)的二值化评分规则：获得 $10 奖金的概率为 $\pi = \max\{0, 1 - 0.0001 \cdot (g - t)^2\}$ ，其中 g 为被试猜测（%），t 为真实状态（0或100）。
Beliefs A 平均收入 $4.80。

实验三：经济预期（嵌入所有实验中）

任务流程：

所有实验（N = 1,000 在A组中）都包含S&P 500回报率预期问题。
被试看到如下问题：

"S&P 500是一个包含美国500家最大公司的股票指数。Jon今天在S&P 500投资了 $100。他的投资在一年后价值低于$ y的概率是多少？"
- y 从集合 {62, 77, 90, 100, 112, 123, 127, 131, 134} 中随机抽取。这些值对应的历史概率（1980-2018）从1%到99%不等。
被试输入概率估计后，CU测量问题为：

"你在上一屏表示你认为有 x% 的概率投资价值低于 $y。你有多确定最优猜测在 (x-1)% 和 (x+1)% 之间？"
无金融激励（与大多数预期调查文献一致）。

实验四：Risk B 和 Beliefs B（早期实验，AMT平台）

被试池： Amazon Mechanical Turk，Risk B: N = 700, Beliefs B: N = 700

主要差异：

Risk B： 使用标准可视化多重价格列表（MPL/choice list）来引出确定性等价，而非BDM机制。包含收益和损失彩票。复杂性操纵采用"compound lottery"（复合彩票）而非复杂数字：被试被告知获得奖金的概率未知，将从一个已知区间均匀分布中随机抽取（规范上等价于基线概率）。在被试内设计中随机穿插基线和compound问题。
Beliefs B： 复杂性操纵采用"compound belief updating"（复合信念更新）：diagnosticity h 变为 h' ~ U{h-0.1, ..., h+0.1}，贝叶斯后验不变但计算更复杂。
CU测量差异： B实验使用滑块（slider）而非单选按钮。Risk B 中被试校准"我确定这个彩票的价值在 a 和 b 之间"的说法，滑块最右端时 a 和 b 等于其先前给出的确定性等价；每移动一格，a 减少$0.25，b 增加$0.25（共20格）。Beliefs B 类似，每格1个百分点（共30格）。

其他实验设计要素

要素	内容
实验类型	线上实验（Prolific + AMT），个体决策
Treatment设计	A组：between-subjects（基线 vs 复杂数字）；B组：within-subjects（基线与compound穿插）+ between-subjects的部分设计
随机化	彩票参数（p, y）、信念更新参数（b, d, M）、经济预期阈值（y）均在被试间/被试内随机化；复杂性条件在被试间随机分配
观测变量	确定性等价（CE）、后验概率判断、经济预期概率、认知不确定性（CU，0-100%）、决策变异性、Raven分数、人口统计
因果识别	(1) 利用CU的个体内/个体间变异预测决策压缩（相关性分析）；(2) 通过外生复杂性操纵因果性地增加CU，验证CU反映问题复杂性
样本量	Risk A: 500, Beliefs A: 500, Risk B: 700, Beliefs B: 700；总计 > 3,000
激励机制	风险选择用BDM/MPL机制；信念更新用二值化评分规则；经济预期无激励；CU测量故意不激励（减轻认知负担、降低博弈性）
亮点	(1) CU测量极其简单（一个问题），可直接嵌入任何实验/调查；(2) 跨三个决策领域统一解释多种行为异象；(3) 外生复杂性操纵提供因果证据；(4) 重复测量允许IV分析排除测量误差
局限	(1) CU测量无金融激励，可能引入噪声；(2) 没有关于"认知默认值"d 如何决定的理论；(3) 无法区分CU的具体来源（感知噪声、规则无知、计算困难等）；(4) 基于description的结果未必推广到experience-based决策

维度2：理论模型

基准理论

标准期望效用理论假设决策者精确知道其效用最大化决策 $a^*(p)$ ，不存在任何关于自身决策正确性的主观不确定性。

行为偏差的形式化：贝叶斯认知噪声模型

核心框架： 决策者（DM）拥有伯努利效用函数 $u(\cdot)$ ，需要做出依赖于客观概率 $p$ 的决策 $a$ 。DM无法直接获得 $a^*(p)$ ，只能通过有噪声的认知信号进行"心理模拟"。

认知信号： DM获得一个关于 $a^*(p)$ 的（缩放后的）二项分布信号 $S$ ，精度为 $N$ ，满足：
$ $E[S] = a^*(p)$ $

决策规则（核心公式）：

a^o = \lambda(N) \cdot s + [1 - \lambda(N)] \cdot d \tag{1}

E[a^o] = \lambda(N) \cdot a^*(p) + [1 - \lambda(N)] \cdot d \tag{2}

其中：

$a^o$ 为观察到的决策
$s$ 为认知信号的实现值
$\lambda(N)$ 为信号权重，随精度 $N$ 递增（ $\lambda(N) \in [0,1]$ ）
$d$ 为"认知默认值"（cognitive default），即无任何思考时DM会做出的"中间"决策（prior mean）
$a^*(p)$ 为效用最大化决策

三个领域的具体化：

风险选择： $a^* = u^{-1}(p)$ （标准化 $u(1)=1$ ），归一化CE应等于概率 $p$ （风险中性时）。
信念更新： 贝叶斯后验 $p = \frac{bh}{bh + (1-b)(1-h)}$ ，Grether分解： $\ln\frac{p}{1-p} = \ln\frac{b}{1-b} + \ln\frac{h}{1-h}$ 。
经济预期： DM基于过去信息形成后验 $p$ ，最优报告 $a^* = p$ 。

认知不确定性的形式定义：

p_{CU} \equiv P(|a^*|S=s] - a^o| > \kappa) \tag{3}

即CU是DM认为其效用最大化决策落在实际决策周围 $\kappa$ 窗口之外的主观概率。CU随认知噪声增加而增加（即 $N$ 减小时CU增大）。

结构估计方程：

a^o = \underbrace{\max\{1 - \gamma p_{CU}; 0\}}_{\lambda} \cdot a^*(p) + \underbrace{\min\{\gamma p_{CU}; 1\}}_{1-\lambda} \cdot d + \epsilon \tag{4}

其中 $\gamma$ 为待估参数， $p_{CU}$ 为观测到的认知不确定性。

关键假设

认知噪声是决策复杂性的函数：问题越复杂，信号精度 $N$ 越低。
认知默认值 $d$ 是"中间值"（intermediate）：对于低概率 $a^*(p) < d$ ，对于高概率 $a^*(p) > d$ 。
CU是认知噪声的可观测代理变量（proxy），而非直接原因。

可检验预测

预测 i(a)： 风险选择中，CU与概率加权相关——低概率时CE随CU增加而增加，高概率时CE随CU增加而减少（"翻转"效应）。
预测 i(b)： 信念和预期中，CU与高估小概率、低估大概率相关；在Grether分解中，CU与base rate不敏感性和保守主义相关。
预测 ii： 决策与效用最大化决策之间的距离随CU增加而增大。

结构估计

采用非线性最小二乘法在总体层面估计公式(4)：

认知默认值 $d$ 在信念更新实验中约为0.50，在风险选择中约为0.40-0.43。
纳入CU的模型相比限制模型（ $p_{CU}=0$ ）大幅降低AIC（如Risk A中AIC从18,958降至18,477；Beliefs A中从211降至-936）。

维度3：核心发现

主要结论

CU普遍存在且变异巨大： 83%的风险选择决策、93%的信念更新决策、97%的股市预期与严格正的CU相关联。CU在被试间和任务间呈现大量异质性。
CU的稳定性：
- 被试内重测相关： $r = 0.70$ （Risk A）， $r = 0.68$ （Beliefs A）。
- 跨领域Spearman相关： $\rho = 0.19$ （风险-股市）， $\rho = 0.35$ （信念-股市）， $p < .01$ 。
- 51%-54%的CU变异由被试固定效应解释。
CU预测压缩效应（核心发现）：
- 风险选择： CU从0%增加到50%，确定性等价对支付概率的斜率下降33.5个百分点（Table III）。低CU被试的中位决策几乎看不出概率加权；高CU被试呈现强烈的概率加权/似然不敏感性。CU预测"四重模式"（fourfold pattern）：高CU决策在低概率时更追求风险、高概率时更规避风险。
- 信念更新： CU从0%增加到50%，信念对贝叶斯后验的斜率下降21个百分点（Table IV）。CU强烈预测base rate不敏感性（base rate sensitivity从0.69降至0.43）和保守主义（conservatism）。
- 股市预期： CU强烈预测预期向50:50压缩（Online Appendix Table 9验证）。通胀预期和收入分布预期呈现类似模式。
CU与最优决策的距离： CU与决策偏离规范基准的绝对距离显著正相关（Spearman $\rho = 0.31$ 风险选择， $\rho = 0.17$ 信念更新， $\rho = 0.21$ 股市预期，均 $p < .01$ ）。
CU与决策变异性： CU与同一问题两次重复间的绝对差异显著相关（Spearman $\rho = 0.27$ 风险选择， $\rho = 0.30$ 信念更新， $p < .01$ ），验证CU确实反映认知噪声。
复杂性因果性地增加CU和压缩：
- 复杂数字操纵使CU增加45%（风险选择）和48%（信念更新）。
- Compound操纵使CU增加23%（风险选择）和33%（信念更新）。
- 复杂条件下的决策更加向中间值压缩，概率加权和信念更新偏差更加严重。
认知默认值估计： 结构估计显示 $d \approx 0.50$ （信念更新）和 $d \approx 0.40$ （风险选择），与心理学中"中心趋势效应"和"折中效应"文献一致。
人口统计学关联： 女性CU高5-11个百分点；年龄与CU轻微负相关；认知能力（Raven分数、教育程度）与CU基本无关。

稳健性

使用MPL（B实验）与BDM（A实验）引出方法结果一致。
收益和损失彩票均成立。
IV分析（用重复测量的CU互相工具变量）排除测量误差担忧，结果几乎不变。
在AMT和Prolific两个平台上结果一致。
A实验和B实验使用不同CU问卷措辞，结果定性一致。

与其他研究的比较

与 Khaw, Li, and Woodford (2021) 的认知不精确模型预测一致，但本文直接测量噪声意识（CU），而非仅建模噪声。
与 Frydman and Jin (2022) 的efficient coding模型互补。
挑战了前景理论（Tversky and Kahneman 1992）中概率加权是固定偏好参数的观点——本文表明它随问题复杂性变化。
挑战了base rate忽略和保守主义是固定参数偏差的模型（如Benjamin 2019综述中的讨论）。

维度6：与其他文献的关系

领域位置

本文位于行为经济学与决策理论的交叉领域，具体涉及：

风险决策中的概率加权
实验室信念更新偏差
主观经济预期的异质性
认知噪声/有限注意力模型的实证检验

对话论文

论文	对话关系
Khaw, Li, and Woodford (2021)	贝叶斯认知不精确模型，本文用CU实证检验其核心预测
Gabaix (2019)	稀疏注意力模型，提供概率加权的注意力解释
Frydman and Jin (2022)	Efficient coding与风险选择，互补视角
Tversky and Kahneman (1992)	累积前景理论的概率加权函数，本文证明其非固定偏好而是认知噪声产物
Benjamin (2019)	信念更新偏差综述，本文用CU统一解释多种偏差
Woodford (2020)	感知/估值/选择中的不精确性建模
Oprea (2022)	独立发现复杂性驱动概率加权，与本文CU相关性高度一致
Enke, Graeber, and Oprea (2023)	后续工作：CU在跨期选择中的角色
Agranov and Ortoleva (2017, 2020)	随机选择与随机化偏好，CU测量是介于Likert量表和跨试次变异性之间的中间方案
Viscusi (1985, 1989)	早期关于概率加权反映贝叶斯噪声的理论

新贡献

测量创新： 提出了一个极其简单、快速、零成本的认知不确定性测量方法，可直接嵌入任何实验或调查。
统一解释： 首次用单一概念（认知噪声及其代理CU）将概率加权、base rate不敏感性、保守主义、样本量效应、经济预期中的过度乐观/悲观等看似不同的行为异象统一起来。
因果证据： 通过外生复杂性操纵（复杂数字、复合问题），因果性地证明问题复杂性增加CU并加剧压缩效应——直接挑战固定参数偏差模型。
实证规律： 文档化了CU的大量跨领域事实：普遍性、稳定性、人口统计关联、与决策变异性的对应关系。
结构估计： 直接估计了"认知默认值"d（约0.4-0.5），量化了中心趋势效应的大小。

维度4：变量概览

变量类别	变量名	测量方式	取值范围
核心解释变量	认知不确定性 CU	单题问卷（被试报告其决策在±κ窗口内的主观概率），单选按钮或滑块	0–100%
结果变量（风险）	确定性等价 CE	BDM机制（A实验）/MPL（B实验）引出	$0 到彩票上限
结果变量（信念）	后验概率判断 g	直接输入0-100整数	0–100%
结果变量（预期）	S&P 500回报概率	直接输入概率估计	0–100%
规范基准	客观概率 p / Bayes后验 / 历史概率	实验参数或历史数据计算	0–100%
复杂性操纵（A）	复杂数字（数学表达式 vs 直接数字）	between-subjects	二值
复杂性操纵（B）	Compound vs simple lottery/belief	within/between-subjects	二值
决策变异性	同一题目两次回答的绝对差异	重复测量	连续
认知能力	Raven矩阵分数	激励性测试	计数
人口统计	年龄、性别、教育、收入	问卷	类别/连续
结构参数	认知默认值 d	NLS估计	$[0,1]$
结构参数	CU权重系数 γ	NLS估计	标量

维度5：局限性

CU测量无金融激励： 为减轻被试认知负担和博弈性而故意不激励，但可能引入随机噪声；作者用IV分析（重复测量互为工具变量）部分缓解。
认知默认值 d 缺乏微观基础： 模型外生设定 d 为"中间值"，但未理论化解释 d 如何由问题表征、视觉锚点、文化默认值等决定。
无法区分CU的具体来源： CU可能来自感知噪声、规则无知（不会用Bayes法则）、计算困难、或对参数的不确定性，本文不区分这些机制。
基于description的范式： 所有任务（彩票、袋子球、概率预测）均以描述形式呈现，结果未必推广到experience-based learning（如重复抽样）情境。
CU与决策的内生性： CU与决策同时由被试报告，可能存在共同测量误差；尽管IV分析缓解，但无法完全排除。
样本特征： Prolific和AMT样本偏年轻、教育较高，外部效度需谨慎；金融市场实际投资者可能呈现不同CU模式。
静态测量： CU为决策时点的瞬时测量，未捕获决策过程中CU的动态变化（如思考时间增加 → CU变化）。

维度7：可拓展的研究方向

CU的理论微观基础： 将CU内生化为信息成本、注意力分配、记忆提取的均衡结果（如理性不注意框架下的内生CU）。
认知默认值 d 的决定因素： 实验研究 d 如何受问题表征（数字 vs 视觉）、文化背景（中位数 vs 极值）、社会信号（他人决策）影响。
CU在跨期决策与社会偏好中的角色： Enke, Graeber, and Oprea (2023) 已扩展到跨期选择，可进一步扩展到社会偏好（如不平等厌恶下的捐赠决策）、战略博弈（认知层级模型）。
CU与市场结果： 将CU作为家庭金融决策（投资组合分散化、股市参与、保险购买）的解释变量；研究CU高的投资者是否更易被金融产品的复杂结构性特征误导。
CU的减少干预： 实验测试简化沟通、可视化工具、AI助手是否能降低CU并改善决策；与金融素养教育的交互。
CU的神经/生理基础： 用fMRI、皮电反应、瞳孔扩张等测量CU的神经相关物，验证其作为认知噪声代理变量的有效性。
CU与机器学习决策： AI/算法推荐如何影响人类CU？人机协作中CU的传递与校准。
政策应用： 在公共政策（养老金选择、医保选择、税务申报）中嵌入CU测量，识别需要简化或助推的决策环节。

关键标签

#cognitive_uncertainty #probability_weighting #belief_updating #cognitive_noise #compression #bounded_rationality #experiment #behavioral_economics #risk #expectations

关键结论

认知不确定性是一种可测量、稳定且广泛存在的决策特征： 一道极简问题即可量化决策者对自身决策正确性的主观不确定性，>83% 决策伴随严格正的CU，被试内重测相关达 0.7 左右。
CU统一解释多领域行为异象的"压缩"机制： 高CU决策系统性地从规范基准向认知默认值（约0.4-0.5的中间值）压缩，自然产生概率加权、似然不敏感性、base rate忽略、保守主义、预期向50:50收敛等模式——这些不再是独立的固定参数偏差，而是同一认知噪声机制的不同表现。
复杂性是CU的因果驱动者，固定参数偏差观点受挑战： 外生增加问题复杂性使CU上升23%-48%并加剧压缩，证明所谓"概率加权函数"等参数实际随问题环境变化，前景理论等固定偏好模型的参数稳定性假设需要重新审视。

Enke_Graeber_2023_CognitiveUncertainty

Cognitive Uncertainty

一句话总结

研究问题

核心贡献

维度1：实验设计分析

实验任务详细流程

实验一：Risk A（风险选择，基线 + 复杂数字操纵）

实验二：Beliefs A（信念更新，基线 + 复杂数字操纵）

实验三：经济预期（嵌入所有实验中）

实验四：Risk B 和 Beliefs B（早期实验，AMT平台）

其他实验设计要素

维度2：理论模型

基准理论

行为偏差的形式化：贝叶斯认知噪声模型

关键假设

可检验预测

结构估计

维度3：核心发现

主要结论

稳健性

与其他研究的比较

维度6：与其他文献的关系

领域位置

对话论文

新贡献

维度4：变量概览

维度5：局限性

维度7：可拓展的研究方向

关键标签

关键结论

🔗 链接到这篇笔记