Eliciting Interval Beliefs: An Experimental Study

论文信息

作者: Ronald Peeters, Leonard Wolk

期刊: PLoS ONE, 12(4), e0175163

年份: 2017

DOI: https://doi.org/10.1371/journal.pone.0175163

关键词: interval scoring rule, belief elicitation, uncertainty, directional learning, volatility

数据可用性: Figshare (doi: 10.6084/m9.figshare.3997203)

一句话总结

本文首次实验性评估区间评分规则（interval scoring rule, ISR）在连续结果变量信念征集中的表现，发现 ISR 在低波动率环境下能高效引出接近最优的信念区间且与风险偏好无关，但在高波动率环境下被试虽能调整位置却无法学会正确的区间宽度。

研究问题

区间评分规则能否激励被试报告反映其主观信念分布的区间？
报告区间的位置和宽度是否随经验改善（学习曲线）？
学习模式是否在不同环境波动率下不同？
风险偏好和性别是否会影响区间报告的位置/宽度？
个体在多次反馈下的区间更新是否符合方向性学习（directional learning）模式？

核心贡献

方法论首检验： 提供 Schlag & van der Weele (2009/2015) 提出的 ISR 在实验室中的首个系统性表现评估
波动率维度： 通过 between-subjects 操纵环境波动率（σ=0.1885 vs 0.2270），分离信念引出质量在易/难学习环境下的差异
风险无关性证据： 实证支持 ISR 的理论性质——区间选择与风险偏好无显著相关，简化未来实验设计
学习模式刻画： 用方向性学习框架分析区间更新动态，识别"高波动 + No hit"情境下的赌徒谬误
实用警示： 指出在高不确定性环境中 ISR 引出的区间宽度可能系统性次优，研究者使用时需谨慎

维度1：实验设计分析

核心研究问题

区间评分规则 (interval scoring rule) 能否有效引出被试在不同不确定性程度下的主观信念？被试是否随时间改善其预测？行为是否受风险偏好影响？

实验任务详细流程

1. 随机过程生成

一个时间序列从 t=0、值=0 开始，以离散时间步长运行
每个时间单位，值按正态分布 N(0, sigma^2) 随机增减（无漂移项）
过程在以下三种情况之一终止：(a) 值触及下界 -2.5；(b) 值触及上界 +2.5；(c) 达到 t=100 仍未触及边界

2. 两个处理组（between-subjects）

低波动率处理组 (Low volatility): sigma = 0.1885，t=100 前终止概率约 1/3
高波动率处理组 (High volatility): sigma = 0.2270，t=100 前终止概率约 2/3

3. 预测任务（20轮重复）

被试预测时间序列的终止时间（条件于 t=100 前终止）
被试通过在时间轴 [0, 100] 上放置两个三角形光标，构建一个时间区间 [x_hat, y_hat]
屏幕实时显示：选择的区间越小，潜在回报越大
确认预测后，观看该轮时间序列的动画过程
然后进入下一轮

4. 信息与学习

第一轮前：被试看到说明中的一个示例时间序列图形 + 一个屏幕动画
被试不知随机过程的具体参数，但知道参数在整个实验中保持不变
20轮中逐步积累关于随机过程的信息

5. 激励机制：区间评分规则 (Interval Scoring Rule)

若终止时间落在所选区间 [x_hat, y_hat] 内，回报为：
$ $\text{Payoff} = 100 \cdot \left(1 - \frac{\hat{y} - \hat{x}}{100}\right)^2 \text{ ECU}$ $
若终止时间未落在区间内（或未在 t=100 前终止），回报为 0
核心权衡：区间越窄 -> 命中时回报越高，但命中概率越低

6. 支付方式

20轮中随机抽取8轮（有放回）计算报酬
ECU 兑换欧元汇率：6 欧分/ECU + 3欧元出场费
平均收入：16.59 欧元，实验时长约60分钟

7. 附加测量

认知能力: WAIS 符号-数字对应测试（90秒）
风险态度: 直接引出法 (0=极度风险厌恶, 10=极度风险偏好)
性别、年龄

实验参数

参数	低波动率	高波动率
sigma	0.1885	0.2270
P(t<100终止)	~1/3	~2/3
真实分布众数	66	31
风险中性最优区间	[51, 83]	[21, 51]
被试数	36	36

实验实施

被试来源：Maastricht University BEElab，主要为商科/经济学学生
总人数：N = 72（每组36人）
时间：2013年9月和2016年3月
软件：z-Tree（预测阶段）、纸质说明
所有被试在同一处理组内看到相同的时间序列（预先由统计软件生成）

维度2：理论模型

区间评分规则 (Interval Scoring Rule)

源自 Schlag & van der Weele (2009, 2015)。核心性质：当被试的主观信念分布是单峰的，且峰值唯一，则激励相容地报告包含该分布众数的区间。

支付函数:
$ $\pi(\hat{x}, \hat{y}, t) = \begin{cases} 100 \cdot \left(1 - \frac{\hat{y} - \hat{x}}{100}\right)^2 & \text{if } \hat{x} \leq t \leq \hat{y} \\ 0 & \text{otherwise} \end{cases}$ $

绩效度量

非条件绩效 (Unconditional performance):
$ $\text{Perf}^{unc} = \frac{\pi}{\pi^{max}}$ $
其中 $\pi$ 为所选区间的期望回报， $\pi^{max}$ 为已知真实分布时的最大期望回报。

条件绩效 (Conditional performance):
$ $\text{Perf}^{cond} = \frac{\pi - \pi_\ell^{min}}{\pi_\ell^{max} - \pi_\ell^{min}}$ $
条件于所选区间长度 $\ell$ ，衡量在给定长度下位置选择的优劣。

方向性学习模型 (Directional Learning)

基于 Selten & Stoecker (1986) 和 Selten & Buchta (1998)。核心思想：被试事后审视是否可以通过不同选择获得更高回报，并朝更高回报方向修正。

固定效应回归模型:
$ $\Delta \ell_{i,t} = \alpha_0 + \alpha_1 \text{Below}_{i,t-1} + \alpha_2 \text{Above}_{i,t-1} + \alpha_3 \text{NoHit}_{i,t-1} + \beta_0 \text{2ndHalf} + \beta_1 \text{Below}_{i,t-1} \times \text{2ndHalf} + \beta_2 \text{Above}_{i,t-1} \times \text{2ndHalf} + \beta_3 \text{NoHit}_{i,t-1} \times \text{2ndHalf} + u_i + \varepsilon_{i,t}$ $

其中 $\Delta \ell_{i,t}$ 为区间位置（中点）或长度的变化量。四种经验类型：

Below: 终止时间在区间下方
Hit: 终止时间落在区间内（基准类别）
Above: 终止时间在区间上方
No hit: 时间序列未在 t=100 前终止

维度3：核心发现

主要发现1：低波动率下表现显著优于高波动率

低波动率组平均期望支付：17.8 ECU (sd=4.3)
高波动率组平均期望支付：14.5 ECU (sd=4.5)
Mann-Whitney U 检验：p < 0.001
低波动率组平均区间长度：38.2 (sd=14.3)，接近最优长度32
高波动率组平均区间长度：44.5 (sd=17.7)，最优长度为30，偏差更大

主要发现2：两组均随时间改善，但改善模式不同

低波动率组: 被试同时学会调整区间位置和长度，几乎实现最优
- 区间长度在后半段显著缩短 (coef = -2.96, p < 0.05)
- 众数包含率：第5轮后 >= 29/36 被试包含近似众数
高波动率组: 被试主要改善位置选择，但未能学会正确的长度
- 区间长度在后半段显著增加 (coef = 2.69, p < 0.05)，方向错误
- 众数包含率显著改善 (marginal effect of 2ndHalf = 0.1355, p < 0.01)
- 但区间聚集在次优水平上，过长

主要发现3：风险态度和性别不影响区间选择和表现

风险态度对区间长度：低波动率 p = 1.0000, 高波动率 p = 0.3451 (Mann-Whitney U)
风险态度对绩效：低波动率 p = 0.9479/0.5079, 高波动率 p = 0.3237/0.4639
这与Harrison et al. (2012) 一致：连续事件上的信念引出不需要矫正风险偏好

主要发现4：方向性学习基本成立，但高波动率下存在赌徒谬误

Hit 后: 两组均缩短区间（符合方向性学习）
Below 后: 区间下移 + 长度增加（高波动率显著），符合方向性学习
Above 后: 区间上移（高波动率显著），符合方向性学习
No Hit 后: 高波动率组区间显著下移 (coef = -8.34, p < 0.01) 且长度增加 (coef = 5.33, p < 0.05)——这在低波动率组不一致于方向性学习，暗示赌徒谬误：被试错误地认为"没命中"后应该很快命中

主要发现5：认知能力的非线性效应

低波动率组：认知能力与绩效呈显著 U 型关系 (cognitive ability squared: coef = 0.0007, p < 0.01)
高波动率组：认知能力对绩效无显著效应

关键效应量汇总

比较	效应	统计量
期望支付 Low vs High	17.8 vs 14.5 ECU	Mann-Whitney p < 0.001
区间长度变化（后半段 vs 前半段）	Low: -2.96; High: +2.69	p < 0.05 both
众数包含改善（后半段）	Low: +0.034; High: +0.136	Low: p<0.1; High: p<0.01
绩效改善（后半段，非条件）	Low: +0.069; High: +0.028	Low: p<0.01; High: p<0.1
风险态度对区间长度	不显著	多个 p > 0.34

维度6：与其他文献的关系

学科领域

实验经济学 / 行为经济学 / 信念引出机制设计

核心贡献

首次实验检验区间评分规则 (Schlag & van der Weele, 2009) 在引出个体行为中的表现
证明环境不确定性程度（波动率）对信念引出质量有重大影响
证明风险态度不影响区间选择，支持区间评分规则的理论激励相容性
将方向性学习理论应用于区间信念更新分析

关键引用文献

Schlag & van der Weele (2009, 2015): 提出区间评分规则及其理论性质
Selten & Stoecker (1986); Selten & Buchta (1998): 方向性学习理论
Harrison et al. (2012): 连续事件信念引出不需风险偏好矫正
Trautmann & Zeckhauser (2013): 模糊性下的学习回避
Bereby-Meyer & Roth (2006): 噪声环境中学习速度较慢

与本项目的关联

提供了一种引出区间信念的激励相容机制，可应用于金融预测实验
证明不确定性程度影响信念质量——高波动率下被试难以学会正确区间长度
风险中性结果对实验设计有启示：使用区间评分规则时不需要单独控制风险偏好
方向性学习框架可用于分析信念动态更新模式
赌徒谬误的证据提示：高不确定性下被试可能采用错误的信念更新策略

局限性

样本较小 (N=72)
仅使用学生被试
随机过程参数对被试完全未知（模糊性），而非已知概率下的风险决策
仅有两个波动率水平的比较
未直接测量被试的主观概率分布

方法论启示

区间评分规则是一种简洁且激励相容的信念引出工具，尤其适合连续结果变量。其核心优势在于不需要矫正风险偏好。但本文结果表明，在高不确定性环境下，被试即使能学会正确的位置定位，也难以学会最优的区间宽度，这限制了该方法在高噪声环境中的适用性。

维度4：变量概览

类别	变量	含义
处理变量	volatility	Low (σ=0.1885) vs High (σ=0.2270)
行为变量	x_hat, y_hat	报告区间的下界与上界
行为变量	ℓ = y_hat − x_hat	区间长度
行为变量	midpoint	区间中点位置
结果反馈	t_terminate	时间序列实际终止时间
反馈类型	Hit / Below / Above / NoHit	终止时间相对于区间的四类结果
绩效度量	Perf^unc	期望支付 / 已知分布下最大期望支付
绩效度量	Perf^cond	给定区间长度下位置选择的相对绩效
学习变量	Δℓ_{i,t}, Δmidpoint	相邻轮次区间长度/位置的变化量
个体特征	认知能力 (WAIS 符号-数字测试)	90 秒内完成的对应数
个体特征	风险态度	0–10 直接引出量表
个体特征	性别、年龄	人口统计

维度6：与其他文献的关系（双链）

Peeters_2015_Beliefs_TruthTelling：作者前作，将 TISR（截断 ISR）应用于二阶信念引出
Wang_Zhang_2020_BeliefElicitation_Methods：信念征集方法综述，可定位 ISR 在工具谱系中的位置
Holt_2009_BayesianUpdating：贝叶斯更新与信念征集的实验范式
Canen_2022_BeliefElicitation_Incentives：激励对信念报告的影响
Danz_Vesterlund_2022_BeliefElicitation_BIC：BIC 与信念报告
Harrison_BeliefDistributions_BayesianOverconfidence：信念分布的贝叶斯估计
Hossain_2020_BeliefFormation_SignalCorrelation：信号相关性下的信念形成
Coutts_2019_TestingModels_BeliefBias：信念更新模型的实验检验
Augenblick_Lazarus_Thaler_2025_Overinference_Underinference：过度/不足推断
Markovic_2015_BeliefEvolution_AttentionalFocus：信念动态演化

维度5：局限性

样本规模与同质性： N=72，全部为 Maastricht 大学商科/经济学学生，外部效度受限
仅两个波动率水平： 无法刻画完整的"波动率—引出质量"剂量响应曲线
未引出完整主观分布： 仅区间一个统计量，无法验证报告区间是否真的对应主观分布的众数及其密度
过程参数对被试未知： 被试面对模糊性而非已知风险，混淆"学习"与"模糊性回避"两种解释
激励规模较小： 6 欧分/ECU 的低单位激励可能弱化报告精度
无对照引出方法： 未与点预测、概率分布、min-max 等其他征集方法直接比较
风险偏好测量简化： 0–10 直接报告法相对于 Holt-Laury 等任务可能不够精确
赌徒谬误的解释： 高波动率"No hit"后区间下移和加宽可能也由"对参数估计的更新"解释，与赌徒谬误难以严格区分
20 轮可能不够长： 长期均衡行为可能在更多轮次后才显现

维度7：可拓展的研究方向

金融预测应用： 将 ISR 用于股票收益、利率、汇率预测的区间引出，对比专业分析师与零售投资者
多波动率剂量响应： 系统操纵 4–6 个波动率水平，绘制信念引出质量曲线
方法比较： ISR vs. 概率密度 vs. min-max vs. 点预测，在同一任务下比较激励、绩效、认知负荷
真实分布反馈： 加入"已知分布"控制条件，分离"学习"与"信念报告"两类误差
结合主观分布完整引出： 将 ISR 与多区间概率分配结合，验证报告区间是否真覆盖主观众数
高赌注变体： 显著提高激励强度，检验赌徒谬误等偏差是否消失
时间序列异质性： 引入漂移项、变结构、肥尾分布等更复杂过程，观察 ISR 在非高斯环境下的表现
学习与神经活动： 用 fMRI 或脑电同步记录预测/反馈，识别赌徒谬误的神经机制
群体信念聚合： 多人 ISR 报告聚合后能否优于个体平均？应用于预测市场设计

关键结论

ISR 在低波动率下表现良好： 被试报告区间接近最优长度，平均期望支付 17.8 ECU（最优 32 长度），众数命中率高
高波动率下学习不完整： 被试虽能调整区间位置（学到大致众数），但无法学会正确的区间宽度，反而在后半段加宽（与最优方向相反）
风险偏好与性别无关： 区间长度和绩效与风险态度、性别均无显著相关，证实 ISR 的理论激励相容性
方向性学习基本成立： Below/Above/Hit 反馈触发被试沿正确方向调整区间
赌徒谬误在高波动 + NoHit 情境出现： 高波动率组 No hit 后将区间下移并加宽，违反 Bayesian 更新方向
认知能力 U 型效应： 低波动率下认知能力与绩效呈 U 型关系，提示极低和极高认知能力者均可表现良好（前者依赖直觉，后者依赖分析）
方法论建议： 使用 ISR 时应注意环境波动率——高波动环境下应辅以其他方法或更长训练以纠正区间宽度

Peeters_2017_IntervalBeliefs_Elicitation

Eliciting Interval Beliefs: An Experimental Study

一句话总结

研究问题

核心贡献

维度1：实验设计分析

核心研究问题

实验任务详细流程

实验参数

实验实施

维度2：理论模型

区间评分规则 (Interval Scoring Rule)

绩效度量

方向性学习模型 (Directional Learning)

维度3：核心发现

主要发现1：低波动率下表现显著优于高波动率

主要发现2：两组均随时间改善，但改善模式不同

主要发现3：风险态度和性别不影响区间选择和表现

主要发现4：方向性学习基本成立，但高波动率下存在赌徒谬误

主要发现5：认知能力的非线性效应

关键效应量汇总

维度6：与其他文献的关系

学科领域

核心贡献

关键引用文献

与本项目的关联

局限性

维度4：变量概览

维度6：与其他文献的关系（双链）

维度5：局限性

维度7：可拓展的研究方向

关键结论

🔗 链接到这篇笔记