Scoring Rules for Subjective Probability Distributions

元数据

作者: Glenn W. Harrison, Jimmy Martinez-Correa, J. Todd Swarthout, Eric R. Ulm
年份: 2012 (Working Paper, November 2012)
机构: Georgia State University (Department of Risk Management & Insurance, CEAR); Copenhagen Business School
关键词: scoring rules, subjective beliefs, risk aversion, belief elicitation, quadratic scoring rule, continuous events
DOI/来源: CEAR Working Paper

一句话总结

证明并实验验证：使用二次评分规则提取连续事件的主观信念分布时，风险厌恶虽会导致报告分布"扁平化"，但分布均值（在对称信念下严格、非对称下近似）几乎不受风险态度影响——与二元事件提取必须进行风险态度校准的情况形成鲜明对比。

研究问题

当风险厌恶的个体面对连续事件（K个区间）的二次评分规则时，风险态度对报告的主观概率分布产生何种系统性扭曲？这种扭曲是否像二元事件那样严重，是否仍需对评分规则进行风险态度校准？

核心贡献

理论贡献：证明了6个关键定理，系统刻画连续事件评分规则下风险厌恶的影响：
- Theorem 1：风险厌恶下等概率事件保持等报告（保序性）
- Theorem 4：风险厌恶导致报告分布趋向均匀化（"扁平化"）
- Corollary 1.1：对称真实分布下，报告分布均值精确等于真实均值
- Theorem 6：近似风险中性下，均值偏差有显式上界
方法论"好消息"：在提取连续事件主观信念分布的实验中，无需进行风险态度校准即可获得分布均值的可靠估计——大幅简化了通胀预期、资产价格预期等实验研究的设计。
实验验证：通过8场实验室实验（123名被试）提供了支持理论预测的经验证据，并直接对比了同一物理刺激下二元 vs. 分布评分规则的差异。
数值校准：在CRRA效用与典型实验室风险厌恶水平（ρ<1）下，量化了均值偏差小于1个百分点的范围。
复合彩票约简公理检验的方法基础：Corollary 1.1为利用主观分布提取检验该公理提供了关键理论依据。

维度1：实验设计分析

核心研究问题

当风险厌恶的个体面对连续事件的评分规则 (scoring rule) 时，风险态度是否会像二元事件那样严重扭曲报告的主观概率分布？

实验任务详细流程

任务一：主观信念分布提取（10-event scoring rule）

刺激生成：一个罐子装满编号1-99的乒乓球（公开展示装填过程）。随机抽取一个球，实验者在屏幕后按号码将相应数量的红球放入第二个罐子，其余填入白球，使总数为100
信息呈现：第二个罐子被毯子盖住放在显眼处。揭开毯子，旋转罐子10秒后再次盖上。这是受试者获得的唯一信息
信念报告：受试者在计算机界面上将100个代币分配到10个区间（0-10%, 11-20%, ..., 91-100%），反映对红球真实比例的主观信念分布
界面设计：初始状态每个区间均匀分配10个代币（每区间显示$27.50的潜在收益）。受试者通过底部滑块重新分配代币
支付规则：使用广义二次评分规则，参数 alpha=beta=25。最高可赚$50（全部100代币放入正确区间时），最低$0（全错时）
验证机制：随机选出一名"验证员"监督整个过程；标明红球数量的球放在信封里，实验结束时公开

任务二：主观概率提取（binary scoring rule，仅前4场次）

同一物理刺激（同一罐子），但不同受试者组
二元事件：从同一罐子中随机抽一个球，预测"红"还是"白"
受试者将100个代币分配到两个结果（红/白）之间
使用相同的二次评分规则，但仅有2个事件

实验参数

参数	值
受试者总数	123人
场次数	8场（分布提取）+ 4场（概率提取，与前4场配对）
被试池	Georgia State University 本科生
区间数K	10（分布提取）; 2（概率提取）
代币数	100
评分规则参数	alpha=beta=25
最高收益	$50
每场样本量	13-18人（各场次：15, 15, 15, 13, 15, 18, 18, 14）
between-subjects	分布提取组 vs 概率提取组（同一session内不同受试者）

设计特色

Between-subjects设计：在同一session内，分布提取组和概率提取组面对同一物理刺激，但被分隔到不同房间接收各自任务的指导
刺激的可信随机性：通过公开的乒乓球抽取过程保证受试者相信真实比例是随机的
对称性假设的利用：刺激设计使受试者倾向于形成对称的主观信念分布，为检验Corollary 1.1提供条件

维度2：理论模型

核心评分规则

离散版二次评分规则（Mathieson & Winkler, 1976）：

S = (2 \times r_k) - \sum_{i=1}^{K} (r_i)^2

其中 $r_k$ 是分配给真实区间 $k$ 的报告概率。

广义形式（含禀赋和缩放）：

w(k) = \alpha + \beta \left[ (2 \times r_k) - \sum_{i=1}^{K} (r_i)^2 \right]

关键理论结果

Lemma 1：最优报告的一阶条件

假设个体有连续可微效用函数 $u(w)$ ，在主观概率上最大化期望效用，则实际概率 $p_k$ 与报告概率 $r_k$ 必须满足：

p_k \times \frac{\partial u}{\partial w}\bigg|_{w=w(k)} - r_k \times E_p\left[\frac{\partial u}{\partial w}\right] = 0, \quad \forall \; k = 1,...,K \quad (1)

Lemma 2：偏差的刻画

令 $\varepsilon_k = r_k - p_k$ 为报告偏差，则：

\varepsilon_k = p_k \times \frac{\frac{\partial u}{\partial w}\bigg|_{w=w(k)} - E_p\left[\frac{\partial u}{\partial w}\right]}{E_p\left[\frac{\partial u}{\partial w}\right]}, \quad \forall \; k=1,...,K \quad (7)

Theorem 1（等概率保序性）

若个体风险厌恶（ $\partial^2 u/\partial^2 w < 0$ ），且 $p_i = p_j$ ，则 $r_i = r_j$ 。即：真实概率相等的事件，报告概率也相等。注意：此定理对风险喜好者不成立。

Theorem 2（逆定理）

若 $r_i = r_j$ ，则 $p_i = p_j$ （不要求风险厌恶）

Corollary 1.1（对称性下均值无偏）

若风险厌恶个体的主观分布是对称的，则报告分布的均值恰好等于真实主观分布的均值。 这对于复合彩票约简公理的检验至关重要。

Theorem 3（零概率保持）

若 $p_k = 0$ ，则 $r_k = 0$ 。个体不会报告自己认为不可能的事件有正概率。

Theorem 4（风险厌恶导致扁平化）

风险厌恶个体的报告分布趋向于在支撑集上的均匀分布（"扁平化"版本的真实分布）。存在一个临界值 $p^*$ ，使得 $p_k > p^*$ 时 $r_k < p_k$ （低报）， $p_k < p^*$ 时 $r_k > p_k$ （高报）。

Theorem 5（极端风险厌恶的极限）

当风险厌恶程度趋于无穷时，报告概率趋向 $1/K$ （支撑集上的均匀分布）。

Theorem 6（均值偏差的界）

若效用函数接近风险中性（ $u(w) = w + \delta \times u^*(w)$ ， $\delta$ 小），则：

E_r[y] - E_p[y] = \delta \times Cov_p\left[\frac{\partial u}{\partial w}, y\right]

数值模拟参数

CRRA效用函数： $u(w) = w^{1-\rho}/(1-\rho)$
$K=10$ ， $\alpha = \beta = 25$
风险厌恶系数 $\rho$ 从0到3变化
在实验室常见的风险厌恶水平（ $\rho < 1$ ）下，非对称分布的报告均值与真实均值之差不超过1个百分点

维度3：核心发现

发现1：分布提取的均值准确性

8场实验中，提取的信念分布均值与真实红球比例高度吻合
Session 1：真实比例69%，提取均值72.3%（差异3.3个百分点）
Session 7（异常值）：真实比例11%，提取均值23.0%；剔除1个明显困惑的受试者后降至18.4%，剔除3个异常后降至13.5%
其余6场：提取均值紧密跟踪真实值

发现2：二元评分规则的风险厌恶偏误

在Sessions 1-3中（刺激远离50%），二元评分规则下的报告显著偏向50%
这与理论预测完全一致：风险厌恶使二元报告偏向均等化以平滑收益
10-event分布评分规则几乎不受影响

发现3：二元 vs. 分布提取的直接比较（Figure 12）

同一物理刺激下，分布提取的均值更接近真实值
二元概率提取的报告更接近50%
Effect size方向：分布评分规则在实际可观测的风险厌恶范围内（ $\rho < 1$ ），均值偏差 < 1个百分点；而二元评分规则偏差显著更大

数值模拟的Effect Size

\rho = 0.65（典型实验室水平）时，对称分布下：
- 众数区间（ $p_4=0.4$ ）的报告降至 $r_4=0.356$ ，低报约4.4个百分点
- 邻近区间（ $p_3=p_5=0.2$ ）高报至 $r_3=r_5=0.207$ ，高报约0.7个百分点
- 尾部区间（ $p_2=p_6=0.1$ ）高报至 $r_2=r_6=0.115$ ，高报约1.5个百分点
- 但由于对称性，报告分布均值 = 真实分布均值（零偏差）

独立证据

该受试者群体在类似赌注下"稳健地"表现出风险厌恶（Holt & Laury, 2002/2005; Harrison & Swarthout, 2012），排除了结果仅因风险中性导致的解释

维度6：与其他文献的关系

所属领域

实验经济学方法论 -- 主观信念提取机制设计

解决的核心问题

弥补了评分规则文献中的一个重要空白：已有文献详细分析了风险厌恶如何扭曲二元事件的概率报告，但对连续事件上的分布提取，风险厌恶的影响尚未被系统刻画。

与先行文献的关系

文献	关系
Winkler & Murphy (1970), Savage (1971), Kadane & Winkler (1988)	奠基文献：评分规则在风险中性假设下的理论基础
Offerman et al. (2009), Andersen et al. (2010)	提出修正/校准方法以应对二元评分规则中的风险厌恶偏误
Smith (1960), Grether (1992), Karni (2009)	设计"风险中性化"的复杂评分规则
Mathieson & Winkler (1976)	本文使用的离散二次评分规则的直接来源
Holt & Smith (2009), Koszegi & Rabin (2008)	风险态度对信念报告影响的相关理论
Nau (2006), Ergin & Gul (2009)	主观复合彩票理论，与Corollary 1.1的应用直接相关

核心贡献

理论贡献：证明了6个关键定理，系统刻画了风险厌恶对连续事件评分规则的影响远小于对二元事件的影响
方法论意义：为实验经济学家提供了"好消息" -- 在提取连续事件的主观信念分布时，无需进行风险态度校准即可获得分布均值的可靠估计（对称信念下精确，非对称下近似）
实验验证：通过8场实验室实验提供了支持理论预测的经验证据

后续影响

本文为大量使用主观信念分布提取的实验研究（如通胀预期、资产定价实验）提供了方法论基础，论证了quadratic scoring rule在分布提取场景下的稳健性，降低了实验设计中对风险态度校准的要求。

维度4：变量概览

关键自变量（理论与实验）：

$p_k$ ：真实主观概率（区间 $k$ 的概率）
$r_k$ ：报告概率（受试者分配给区间 $k$ 的代币比例）
$\rho$ ：CRRA风险厌恶系数
提取机制类型：10-event分布提取 vs. 2-event二元提取（between-subjects处理）
评分规则参数： $\alpha = \beta = 25$
$K$ ：区间数（10 vs. 2）

关键因变量：

报告概率 $r_k$ 及其与真实 $p_k$ 的偏差 $\varepsilon_k = r_k - p_k$
报告分布的均值 $E_r[y]$ 与真实均值 $E_p[y]$ 之差
报告分布形状（扁平化程度）

关键参数：

真实红球比例（外生抽取）：每场session 1-99中随机一个值
临界概率 $p^*$ ：高于此值则报告偏低，低于此值则报告偏高
最高收益：$50；最低$0
代币总数：100

实验控制变量：

被试池：Georgia State University 本科生（n=123）
每场样本量：13-18人
物理刺激（罐子）：跨二元和分布提取组保持相同

维度5：局限性

样本规模与统计推断：每场仅13-18人，全样本123人，未进行正式的统计假设检验；许多结论依赖于描述性比较和数值模拟。
被试群体的局限：仅使用美国本科生，外部效度有限；专业预测者、受过统计训练的人群是否会表现出相同行为模式未知。
效用函数假设：理论结果基于期望效用最大化与CRRA函数族；若被试存在概率权重（CPT）、模糊厌恶、损失厌恶等行为偏离，定理结论可能不成立。
对称信念假设：Corollary 1.1的精确均值无偏结论需要主观分布对称性。在许多现实应用（如股票收益、通胀预期）中，主观信念可能存在显著偏度。
K=10的特定选择：理论虽适用于一般 $K$ ，但实验仅在 $K=10$ 验证；不同区间数下的有限样本表现未深入探讨。
物理刺激的人为性：罐子-红球设定的随机性高度可控，但与现实经济信念形成场景（基于历史经验、专家意见、社交信息）差异很大。
缺乏对模糊厌恶的处理：在模糊（ambiguity）而非纯风险情况下，评分规则的扭曲机制可能不同，本文未涉及。
未发表/工作论文阶段（撰写时）：理论证明与实证设计较为完善，但未经同行评审完整周期。
session 7的异常：在低真实比例（11%）情况下出现明显偏差，需剔除"困惑"被试才能获得理论一致结果——暗示有限理性或理解失败可能在尾部事件中放大偏差。
缺乏跨场景比较：未对比通胀预期、股票收益等真实经济场景中的分布提取效果。

维度7：可拓展的研究方向

非对称分布的边界条件：系统研究信念偏度（如金融市场中常见的负偏度收益分布）下报告均值偏差的大小，明确"近似无偏"在多大程度上稳健。
概率权重函数的整合：将CPT概率权重函数嵌入分析框架，研究权重函数 vs. 风险厌恶对报告分布的相对影响。
在金融实验中的应用：将本文结论应用到股票收益分布预期提取、风险溢价提取，验证 Drerup_Enke_2017_SubjectiveDataPrecision 等相关研究的方法学稳健性。
与其他评分规则比较：将二次评分规则与log scoring rule、binarized scoring rule进行系统比较——参考 Danz_Vesterlund_2022_BeliefElicitation_BIC 关于BSR的工作。
模糊与多重先验：在模糊环境下重写理论，研究模糊厌恶下报告分布的扭曲特征。
大样本与跨文化验证：在大规模在线样本中复制实验，比较不同文化、教育背景下的报告偏差模式。
AI/LLM代理的评分规则行为：研究LLM agent在评分规则下的报告行为是否表现出"理性贝叶斯"特征，与人类对比（参考 Hashimoto_Takayanagi_2026_LLMAgents_HumanBias_MarketDynamics）。
动态信念更新的提取：将本文的分布提取方法与信息提供实验结合（参考 Haaland_Roth_2023_DesigningInformationExperiments），追踪先验→后验分布的动态变化，研究是否需要风险态度校准。
结构性估计应用：将分布提取数据用于结构估计有限理性模型（如Cognitive Uncertainty）的参数（参考 Enke_Graeber_2023_CognitiveUncertainty）。
教学与界面设计：研究不同界面设计（滑块、文字输入、图形拖放）对报告分布质量的影响，发展评分规则的最佳实施界面。

方法论启示

对实验设计者的建议

提取连续事件的主观信念分布（而非单一概率）时，二次评分规则是稳健的
在对称信念合理假设的场景下，报告均值即真实均值，无需风险态度校准
风险厌恶导致报告分布"扁平化"（高概率事件低报、低概率事件高报），但均值受影响极小
二元事件的概率提取仍需校准风险态度

关键假设与局限

理论结果依赖期望效用最大化
Corollary 1.1的精确结果需要主观信念分布的对称性假设
实验样本较小（每场13-18人），未进行正式的统计检验
Working paper阶段，未经同行评审（截至本文版本）

关键结论

风险厌恶对分布提取的影响远小于二元提取：连续事件评分规则下，风险厌恶导致报告分布"扁平化"——高概率事件被低报、低概率事件被高报、报告分布在支撑集上趋向均匀分布。但这种扭曲使得报告分布的均值几乎不受影响（在对称真实分布下严格无偏，非对称下近似无偏，典型实验室风险厌恶水平 ρ<1 时偏差<1个百分点）。
对实验设计具有重要方法学含义：在提取连续事件主观信念分布的实验中，研究者无需进行风险态度校准即可获得可靠的均值估计。这极大简化了通胀预期、资产价格预期、风险感知等实验的设计——但二元事件的概率提取仍需校准。
6个理论定理为方法学提供严格基础：包括等概率保序性（Theorem 1）、对称性下均值无偏（Corollary 1.1）、零概率保持（Theorem 3）、扁平化方向（Theorem 4）、极限均匀分布（Theorem 5）、近似风险中性的均值偏差界（Theorem 6），构成对评分规则在分布提取场景下行为表现的完整刻画。
实验数据与理论预测高度吻合：8场实验中，分布提取的均值紧密跟踪真实红球比例；同一物理刺激下，二元提取明显偏向50%（与风险厌恶预测一致），而分布提取均值不受此偏误影响。
复合彩票约简公理检验的方法基础：对称信念下报告均值无偏的结果为利用主观分布提取检验该公理（如 Nau 2006、Ergin & Gul 2009 等理论框架）提供了关键实验工具。

Harrison_2017_ScoringRules_SubjectiveProbability

Scoring Rules for Subjective Probability Distributions

元数据

一句话总结

研究问题

核心贡献

维度1：实验设计分析

核心研究问题

实验任务详细流程

任务一：主观信念分布提取（10-event scoring rule）

任务二：主观概率提取（binary scoring rule，仅前4场次）

实验参数

设计特色

维度2：理论模型

核心评分规则

关键理论结果

Lemma 1：最优报告的一阶条件

Lemma 2：偏差的刻画

Theorem 1（等概率保序性）

Theorem 2（逆定理）

Corollary 1.1（对称性下均值无偏）

Theorem 3（零概率保持）

Theorem 4（风险厌恶导致扁平化）

Theorem 5（极端风险厌恶的极限）

Theorem 6（均值偏差的界）

数值模拟参数

维度3：核心发现

发现1：分布提取的均值准确性

发现2：二元评分规则的风险厌恶偏误

发现3：二元 vs. 分布提取的直接比较（Figure 12）

数值模拟的Effect Size

独立证据

维度6：与其他文献的关系

所属领域

解决的核心问题

与先行文献的关系

核心贡献

后续影响

维度4：变量概览

维度5：局限性

维度7：可拓展的研究方向

方法论启示

对实验设计者的建议

关键假设与局限

关键结论

🔗 链接到这篇笔记