A Truth Serum for Non-Bayesians: Correcting Proper Scoring Rules for Risk Attitudes

基本信息

作者: Theo Offerman, Joep Sonnemans, Gijs van de Kuilen, Peter P. Wakker
期刊: The Review of Economic Studies, 76(4), 1461-1489
年份: 2009
DOI: 10.1111/j.1467-937X.2009.00557.x
机构: University of Amsterdam; Tilburg University; Erasmus University

一句话总结

通过实验中先用已知客观概率（10面骰子）做"校准任务"估计每位被试的效用函数，再将股票事件中的报告概率经 $R^{-1}$ 校正得到信念 $B(E)$ ，本文为非贝叶斯、非期望效用决策者提供了一种"风险校正的二次评分规则"，显著降低了可加性偏差且不需要假设具体的效用或概率加权函数形式。

研究问题

当被试不是期望价值最大化者（存在风险厌恶、非期望效用、模糊性偏好）时，proper scoring rules（如QSR）报告的概率是否仍然真实反映其主观信念？如果不是，偏差有多大？
能否设计一种"非参数"的校正程序，无需事先知道被试的效用函数或概率加权函数形式，就能将报告概率还原为真实信念？
校正后剩余的"可加性偏差"是否反映了真正的非贝叶斯信念（模糊性、超可加性），而非测量伪迹？
不同激励机制（pay-all vs. pay-one-random vs. 去概率术语）如何影响风险校正的需要？

核心贡献

理论推广： 将proper scoring rules的最优报告公式从期望价值理论一般化到非期望效用与非贝叶斯信念框架（定理1、公式6），明确给出报告概率与真实信念的非线性映射 $r=W(E)/[W(E)+(1-W(E))U'(1-r^2)/U'(1-(1-r)^2)]$ 。
方法创新（核心）： 推论4给出一个不依赖U和w具体形式的校正公式 $B(E)=R^{-1}(r)$ -- 只需用已知概率事件下的校准曲线R(p)的逆函数即可恢复信念，回避了估计参数化效用/概率加权函数的负担。
实验设计创新： 用1991年阿姆斯特丹真实股票（隐去坐标）作为不确定事件源，结合10面骰子的客观随机化作校准；同一被试同时提供"主观事件下的报告"和"客观事件下的报告"，可直接做个体级校正。
可加性偏差的诊断价值： 通过让被试对同一只股票的大区间 $I$ 、小区间 $S$ 、 $T$ ( $I=S\cup T$ ) 分别报告概率，构造 $r_S+r_T-r_I$ 这一可加性偏差，作为非贝叶斯信念的直接度量。
激励机制比较： ALL（全付）、ONE（随机一题付）、ALLnp（无概率术语）三种处理对比 -- 揭示RIS（随机激励）下被试更接近风险厌恶、需要更强校正，而全付下接近风险中性。
简化捷径： 二次回归 $p=a+br+cr^2$ 拟合校准曲线效果与决策理论方法几乎相同（11.4节），为后续研究者提供低成本工具。

维度1：实验设计分析

研究问题

传统的 proper scoring rules（如二次评分规则 QSR）假设被试是期望价值最大化者（expected value maximizer），但现实中被试普遍偏离风险中性。本文提出一种"风险校正"（risk correction）方法，从被试在已知客观概率下的校准数据中估计其效用函数，然后校正其在未知概率事件中报告的主观概率，使之更接近真实信念。

实验任务详细流程

被试

N = 93（前两个处理组），来自多学科（45经济学、13心理学、35其他），自愿报名，来源于约1100人的邮件列表
控制组 t = ALLnp：N = 44

实验环境

计算机实验室，每组约16人，面对个人电脑

实验分为两大部分

（一）股票价格部分（Stock Price Part）：测量主观信念

使用1991年阿姆斯特丹股票交易所的32只真实股票数据
固定评估日期为1991年6月1日
对每只股票，被试看到评估日前0、1、2、3、4、5个月的股价走势图（纵轴无数字刻度，防止被试识别具体股票）
不确定事件：评估日后7个月内股价是否落入某个目标区间
每只股票获取3个概率判断：
- 一个大目标区间 I = S ∪ T
- 两个小目标区间 S 和 T（其并集为 I）
共100个概率报告（4道练习 + 32只股票 x 3个问题 = 96道正式题）
题目顺序部分随机化：同一只股票的三个问题分散在三轮中（问题5-36、37-68、69-100），确保间距足够远
大小区间呈现顺序系统变化

报告概率的操作流程：

被试在输入框中键入一个0-100的整数作为概率百分比
点击"send"后进入确认界面
确认界面显示一个列表（Figure 4），列出所选概率附近各概率值对应的"事件为真时得分"和"事件不为真时得分"
被试可在此界面上下滚动修改概率，或点击"send"确认最终选择
最终选择的概率 r 即为该不确定事件的 reported probability

（二）校准部分（Calibration Part）：测量风险态度

与股票部分决策界面相同，但事件为已知客观概率
使用两个10面骰子确定结果：一个骰子决定第一位数字，另一个决定第二位数字，共生成0-99的均匀随机数
事件描述示例："两个骰子掷出的第二位数字在01-25之间"（概率0.25）
测量客观概率 p = 0.05, 0.10, 0.15, ..., 0.85, 0.90, 0.95 各自对应的报告概率
每个 p >= 0.10 的概率测2次，p = 0.95 测3次，共20个校准问题

激励机制（三种处理）

处理 t = ALL（所有问题支付）：

所有120道题的得分累加
使用 QSR：得分 = 1 - (1-r)^2（事件为真）或 1 - r^2（事件不为真）
单位为10,000点，最高10,000点/题，最低0点
总点数换算：60,000点 = 1欧元
平均支付：15.05欧元/人
校准部分：用装有20个隔间的盒子，每个隔间放一对10面骰子，实验结束后同时确定所有结果

处理 t = ONE（随机一题支付）：

实验结束后随机抽取120题中的1题支付
换算率：500点 = 1欧元
平均支付：15.30欧元/人

控制处理 t = ALLnp（无概率术语）：

与 t = ALL 相同，但指令中不使用"概率"或"信念"等词汇
改用"选择一个数字"代替"报告概率"
N = 44，用于检验术语是否影响结果

数据筛选

剔除校准部分中报告概率与客观概率相关系数低于0.35的被试（4人），最终分析样本 N = 89

维度2：理论模型

核心框架：二次评分规则（QSR）的非期望效用推广

QSR 前景（prospect）定义：

\text{QSR}: (1-(1-r)^2)_E(1-r^2) \quad \text{...(1)}

被试选择 r（0 <= r <= 1），事件 E 发生则获得 1-(1-r)^2，不发生则获得 1-r^2。

Observation 1（对称性）： QSR 对事件 E 和补事件 E^c 呈现相同的前景选择集，r_E 报告的概率对应 r_{E^c} = 1 - r_E。

一般模型下的评估

在最一般的决策模型（Case 4，包含非期望效用和非贝叶斯信念）下，对 r >= 0.5：

W(E)U(1-(1-r)^2) + (1-W(E))U(1-r^2) \quad \text{...(4)}

其中 U 是效用函数，W 是决策权重函数（非可加）。

定理1：最优报告概率

在一般模型下，最优选择 r 满足（当 r > 0.5 时）：

r = r_E = \frac{W(E)}{W(E) + (1-W(E))\frac{U'(1-r^2)}{U'(1-(1-r)^2)}} \quad \text{...(6)}

推论1（期望价值下）： 若被试最大化期望价值，则 r = r_E = P(E)，即如实报告。

推论2： 在期望效用下，P(E) = 0.5 当且仅当 r_E = 0.5；若存在风险厌恶，r_E = 0.5 当且仅当 P(E) = 0.5。

风险校正的核心方法

定义 B(E)（风险校正后的报告概率）：

B(E) = w^{-1}(W(E)) \quad \text{...(9)}

B 捕捉了信念成分，剥离了风险态度的影响。

推论4（本文核心实证工具）： 若 r_E = r，可以找到客观概率 p 使得 R(p) = r，则：

\text{若 } r_E = r > 0.5, \text{ 则 } B(E) = R^{-1}(r) \quad \text{...(12)}

即：通过校准曲线 R(p) 的逆函数 R^{-1}，可以直接从报告概率 r 得到校正后信念 B(E)。

参数化估计

效用函数： CRRA 幂效用
$ $U(x) = x^\rho \quad (\rho > 0); \quad U(x) = \ln(x) \quad (\rho = 0); \quad U(x) = -x^\rho \quad (\rho < 0) \quad \text{...(17)}$ $

概率加权函数： Prelec (1998) 单参数族（固定 beta = 1）
$ $w(p) = \exp(-(-\ln(p))^\alpha) \quad \text{...(18)}$ $

估计模型：
$ $R_k(j/20) = h(j/20, \alpha, \rho) + \varepsilon_k(j/20, \sigma^2) \quad \text{...(19)}$ $

其中 h 是方程(11)的逆函数，采用最大似然估计。

可加性偏差（Additivity Bias）

对未校正概率： $r_S + r_T - r_I = 0$ 应成立（可加性）...(21)

对校正后概率： $B(S) + B(T) - B(I) = 0$ 应成立...(22)

偏离零即为"可加性偏差"，反映非贝叶斯信念或模糊性。

维度3：核心发现

3.1 校准部分：风险校正的必要性（Table 2）

结果	t = ONE	t = ALL
sigma（无校正）	9.00**	8.36**
rho（效用曲率）	0.43** (SE=0.09)	0.94** (SE=0.07)
alpha（概率加权）	0.69** (SE=0.03)	1.09** (SE=0.07)
sigma（含效用校正）	8.73**	8.36**

风险校正显著改善拟合：引入效用曲率后，似然比检验 p = 0.01，显著优于无校正模型
t = ONE 处理中 rho 显著小于1（rho = 0.43，风险厌恶更强），需要更多校正
t = ALL 处理中 rho 接近1（rho = 0.94），校正需求较小
两个处理的 rho 差异显著（似然比检验 p = 0.01），t = ONE 下被试表现出更凹的效用曲率

3.2 个体层面风险态度异质性（Figure 6）

t = ONE：中位数 rho = 0.92，均值 rho = 0.24（左偏，大量强风险厌恶者）
t = ALL：中位数 rho = 1.04，均值 rho = 0.91
Wilcoxon 符号秩检验：t = ONE 的 rho 显著小于1（z = -3.50, p = 0.0005）；t = ALL 不显著（z = 1.42, p = 0.16）
Mann-Whitney 检验：两处理 rho 差异显著（p = 0.001）

3.3 股票部分：可加性偏差与风险校正效果

可加性偏差普遍存在且为正（超可加）：

对几乎所有32只股票，两种处理下可加性偏差均显著为正
t = ONE：平均未校正偏差 = 0.163，z = 5.27, p < 0.001
t = ALL：平均未校正偏差 = 0.128（同样显著）

风险校正减少可加性偏差（t = ONE）：

校正后平均偏差从 0.163 降至 0.120（z = 3.21, p = 0.001）
绝对值偏差从 0.239 降至 0.228（z = 2.26, p = 0.02）
27只股票偏差显著减少，0只显著增加

风险校正对 t = ALL 效果不显著：

平均偏差从 0.128 变为 0.136（z = -1.64, p = 0.1），无显著改善
与理论一致：t = ALL 下被试更接近风险中性，校正空间小

关键发现：校正后两种处理趋同

校正后 t = ONE 的可加性偏差（0.120）与 t = ALL 的（0.136）接近
校正前后均显著偏离零，说明可加性偏差不完全由风险态度造成，信念本身就是非可加的（genuinely non-Bayesian）

3.4 控制处理 t = ALLnp

rho 分布与 t = ALL 无显著差异（z = 1.57, p = 0.12）
可加性偏差同样显著为正（z = 4.47, p < 0.001）
去除"概率""信念"等术语不影响结果，验证了实验设计的稳健性

维度6：与其他文献的关系

学科领域

实验经济学 / 决策理论 / 机制设计 / 信念测量方法

核心贡献

理论贡献：将 proper scoring rules 从期望价值理论推广到现代非期望效用理论（前景理论、Choquet 期望效用、多先验模型等），证明在一般模型下 QSR 的最优报告概率偏离真实信念的具体形式
方法论贡献：提出"风险校正"（risk correction）程序——通过校准部分估计个体效用函数，利用 R^{-1}(r) 将报告概率转换为校正后信念 B(E)，无需知道效用函数或概率加权函数的具体形式（Corollary 4）
实证贡献：实验验证了方法的可行性，证明风险校正可显著减少可加性偏差（尤其在随机激励机制下），同时揭示剩余偏差反映了真实的非贝叶斯信念

上游文献

Proper scoring rules 基础: Brier (1950), Good (1952), Winkler & Murphy (1970)
非期望效用理论: Kahneman & Tversky (1979), Quiggin (1982), Schmeidler (1989), Tversky & Kahneman (1992)
概率加权函数: Prelec (1998), Gonzalez & Wu (1999)
实验中的评分规则: Nyarko & Schotter (2002), McKelvey & Page (1990)
模糊性与非可加信念: Gilboa & Schmeidler (1989), Ellsberg (1961), Camerer & Weber (1992)
激励机制: Holt & Laury (2002), Starmer & Sugden (1991)

下游文献与影响

Harrison et al. (2017) 进一步发展了评分规则下的主观概率测量方法
Danz & Vesterlund (2022) 讨论了信念诱导机制的激励兼容性
Canen et al. (2022) 研究了信念诱导中的激励问题
Peeters et al. (2015, 2017) 探索了区间信念的诱导方法
本文方法被广泛应用于实验经济学中需要精确测量主观信念的场景

方法论启示

使用 QSR 测量信念时，研究者应意识到风险态度的潜在扭曲，尤其在使用随机激励机制（RIS）时
校准任务（已知概率下的 QSR 选择）是一种低成本的个体风险校正工具
二次回归 p = a + br + cr^2 拟合校正曲线在实践中效果与决策理论方法几乎无差别（Section 11.4），为简化应用提供了捷径

维度4：变量概览

类别	变量	说明
报告变量	$r$	被试报告的概率（0-100整数）
	$r_E$	主观事件 $E$ 的报告概率
	$R(p)$	客观概率 $p$ 下的报告概率（校准曲线）
	$r_S, r_T, r_I$	同一股票大小区间的报告
校正后信念	$B(E)=R^{-1}(r_E)$	风险校正后的信念
可加性偏差	$r_S+r_T-r_I$	未校正可加性偏差
	$B(S)+B(T)-B(I)$	校正后可加性偏差
结构参数	$\rho$	CRRA幂效用曲率参数（U(x)=x^ρ）
	$\alpha$	Prelec概率加权函数曲率
	$W(E)$	决策权重函数（非可加）
	$w(p)=\exp(-(-\ln p)^\alpha)$	Prelec概率加权函数
激励处理	ALL	所有120题累加支付（60,000点=1欧元）
	ONE	随机一题支付（500点=1欧元）
	ALLnp	ALL去除"概率/信念"术语（控制）
股票事件	32只1991年阿姆斯特丹股票	评估日1991.6.1，预测后7个月内是否落入区间
客观随机化	两个10面骰子	生成01--99均匀分布事件
校准点	$p\in\{0.05,0.10,...,0.95\}$	19个客观概率 × 1--3次 = 20题
样本	N=89（剔除4个低相关者）	t=ALL: 49 + t=ONE: ~40；t=ALLnp: 44
支付	平均15欧元/人	实验时长约2小时

维度5：局限性

校准任务本身受非期望效用影响： 校准任务用客观概率事件，但被试在校准任务下的报告也可能受概率加权 $w(p)$ 而非纯效用扭曲；本文虽推导了 $R^{-1}$ 包含 $w$ 的成分，但实务中难以分离。
校正不能消除全部可加性偏差： 校正后偏差仍显著（例如ONE: 0.120, ALL: 0.136），说明信念本身就是非贝叶斯的；但本文未提供进一步分解（Choquet vs. multiple priors vs. neoadditive等）。
样本相对小且为学生： N=89，全部为荷兰大学被试；外部效度有限，对真实金融市场参与者的校正参数（ $\rho, \alpha$ ）可能不同。
仅一种资产类型（股票）： 未在其他不确定事件（天气、体育、政治、商品价格）上验证校正方法的稳健性。
激励规模小： 平均15欧元的支付对效用曲率的识别可能不足；高stakes下风险厌恶可能更强，需要更大校正。
连续报告 vs. 离散界面： 被试在确认界面上下滚动调整 -- 这种界面可能引入锚定或修改成本偏差，与纯文本输入界面不可比。
仅一只股票/3个区间的可加性测试： 一只股票内部的 $I=S\cup T$ 关系具体来自具体区间划分；不同区间组合可能给出不同偏差水平。
无个体异质性的进一步分析： 虽报告中位数和均值，但未深入研究哪些个体特征（人格、经验、教育）预测大的可加性偏差或大的风险厌恶。
校准与目标任务的"领域转移"： 假设客观概率任务下的 $\rho$ 与股票任务下的 $\rho$ 相同，但能力假说（Heath-Tversky 1991）等表明被试在熟悉/陌生领域的风险态度可能不同。
股票数据来自1991年： 实验在2001--2003年进行，被试看的是10年前的股票走势，可能影响"信念"的真实性 -- 完全是抽象预测而非真实赌注。

维度6：与其他文献的关系

上游：Proper Scoring Rules

Brier (1950), Good (1952), Winkler & Murphy (1970) -- QSR的提出与早期发展
McKelvey & Page (1990), Nyarko & Schotter (2002) -- 实验中的scoring rule应用

上游：非期望效用与模糊性

Kahneman & Tversky (1979), Tversky & Kahneman (1992) -- 前景理论、累积前景理论
Quiggin (1982), Schmeidler (1989) -- 等级依赖效用、Choquet期望效用
Gilboa & Schmeidler (1989) -- 多先验最大最小效用
Ellsberg (1961), Camerer & Weber (1992) -- 模糊性偏好的实验证据
Prelec (1998), Gonzalez & Wu (1999) -- 概率加权函数

横向：信念诱导方法

Harrison_2017_ScoringRules_SubjectiveProbability -- scoring rules诱导主观概率分布的进一步发展
Harrison_HypotheticalSurveys_ScoringRules -- 假设vs.激励调查对比
Harrison_BeliefDistributions_BayesianOverconfidence -- 信念分布诱导与贝叶斯过度自信
Danz_Vesterlund_2022_BeliefElicitation_BIC -- 激励兼容信念诱导的现代分析
Holt_2009_BayesianUpdating -- 贝叶斯更新实验
Baillon_2017_BayesianMarkets_PrivateInfo -- Bayesian markets作为替代信念诱导机制

横向：模糊性测量

Heath_Tversky_1991_Competence_Ambiguity -- 能力假说，可解释剩余可加性偏差的来源

下游应用

本文方法已成为实验经济学测量主观信念的标准工具之一，被广泛用于：

测量金融市场预期
政治预测市场
健康风险感知
气候变化信念

与本项目（信念实验）的联系

方法基石： 风险校正QSR是测量主观信念的金标准，可直接用于本项目实验中信念诱导环节
可加性偏差作为模糊性度量： 可作为衡量被试对金融事件感知模糊性的代理变量
激励机制选择： 本文证据支持在信念诱导中使用ALL（全付）而非ONE（随机一题），后者会放大风险厌恶导致的扭曲
校准曲线作为元数据： 在信念实验中加入校准任务，可同时获得风险态度参数（一举两得）

维度7：可拓展的研究方向

机器学习驱动的非参数校正： 用现代非参数回归（局部多项式、神经网络）取代CRRA+Prelec参数化，提高小样本下的校正精度。
跨领域稳健性： 在金融、健康、政治、气候等不同领域验证校正方法 -- 是否同一被试的 $\rho$ 跨领域稳定？
真实交易者样本： 招募专业交易员、基金经理重做实验，比较其校正参数与学生样本的差异，并检验校正后信念是否更好预测实际交易决策。
与脑成像结合： 在fMRI中分别扫描被试在客观概率vs.主观事件任务下的神经活动，检验 $\rho$ 是否对应价值编码区的不同激活模式。
动态信念诱导： 将QSR用于序列信念更新实验（Bayesian updating），并校正每一期的报告，研究"动态可加性偏差"如何随信息累积变化。
结合贝叶斯市场： 比较风险校正QSR与Baillon (2017)的Bayesian markets在测量信念上的相对优劣。
激励规模实验： 系统变化stakes（从1欧元到1000欧元），检验校正参数 $\rho$ 是否随stakes变化，及其对方法适用性的影响。
AI/LLM作为被试： 对LLM应用风险校正QSR，检验语言模型的"内生概率"是否表现出类似人类的非可加性，及其校正必要性。
政策应用： 将方法用于央行调查（如ECB SPF）、政府调查（消费者信心、通胀预期），评估当前未校正报告的偏差幅度。
简化版工具开发： 基于11.4节的二次回归捷径，开发开源软件包（R/Stata/Python），降低应用门槛。

关键图表说明

Figure 1: 展示在不同决策模型下，报告概率 R(p) 如何偏离真实概率 p，清晰呈现期望价值、期望效用、非期望效用、模糊性四种情况的递进偏差
Figure 5: 两种处理下校正前后的报告概率对比，t = ONE 需要明显校正，t = ALL 几乎不需要
Figure 6: 个体 rho 参数的累积分布，展示处理间和个体间的异质性
Figure 7: 可加性偏差的经验分布，校正后分布更集中于零附近
Table 2: 各模型限制条件下的参数估计汇总，是本文核心实证结果表

关键结论

风险校正显著且可行： Proper scoring rules在非期望效用决策者下确实存在系统性偏差；本文提出的"用校准曲线 $R^{-1}$ 校正报告概率"程序在ONE激励处理下将平均可加性偏差从0.163降至0.120（z=3.21, p=0.001），且无需事先知道效用函数或概率加权函数的具体参数化形式（推论4），是可直接应用的工具。
激励机制选择至关重要： ALL（全付，60,000点=1欧元）下被试 $\rho\approx 0.94$ 接近风险中性，校正几乎无效；ONE（随机一题付，500点=1欧元）下 $\rho\approx 0.43$ 强风险厌恶，校正必要 -- 表明RIS（随机激励）在信念诱导中会显著扭曲报告，研究者应优先考虑全付机制。
可加性偏差不仅是测量伪迹： 校正后偏差仍显著为正（约0.12--0.14），无法用风险态度解释；这证明被试的主观信念本身就是非贝叶斯的（超可加），与模糊性偏好/Choquet期望效用一致，为非加性概率理论提供直接实验支持。
去概率术语不影响结果： 控制处理ALLnp与ALL在 $\rho$ 分布和可加性偏差上无显著差异，验证结果不依赖于"概率/信念"等术语，方法对不同表述的语言-数学界面具有稳健性。

Offerman_2009_TruthSerum_ScoringRules

A Truth Serum for Non-Bayesians: Correcting Proper Scoring Rules for Risk Attitudes

基本信息

一句话总结

研究问题

核心贡献

标签

维度1：实验设计分析

研究问题

实验任务详细流程

被试

实验环境

实验分为两大部分

激励机制（三种处理）

数据筛选

维度2：理论模型

核心框架：二次评分规则（QSR）的非期望效用推广

一般模型下的评估

定理1：最优报告概率

风险校正的核心方法

参数化估计

可加性偏差（Additivity Bias）

维度3：核心发现

3.1 校准部分：风险校正的必要性（Table 2）

3.2 个体层面风险态度异质性（Figure 6）

3.3 股票部分：可加性偏差与风险校正效果

3.4 控制处理 t = ALLnp

维度6：与其他文献的关系

学科领域

核心贡献

上游文献

下游文献与影响

方法论启示

维度4：变量概览

维度5：局限性

维度6：与其他文献的关系

上游：Proper Scoring Rules

上游：非期望效用与模糊性

横向：信念诱导方法

横向：模糊性测量

下游应用

与本项目（信念实验）的联系

维度7：可拓展的研究方向

关键图表说明

关键结论

🔗 链接到这篇笔记