Hypothetical Surveys or Incentivized Scoring Rules for Eliciting Subjective Belief Distributions?

一句话总结

通过被试间实验比较假设性调查与激励相容二次评分规则(QSR)在引出主观信念分布上的差异，发现存在显著的假设性偏差，但 cheap talk 加非显著性报酬可部分缓解；总体均值无差异不能推广至个体层面。

研究问题

通过假设性调查(hypothetical surveys)与激励相容评分规则(incentivized scoring rules)所引出的主观信念分布是否相同？若不同，是否存在系统性偏差？能否用激励性结果校准假设性调查回答？以及人口统计特征如何调节这种差异？

核心贡献

首次系统性实验检验假设性调查 vs. QSR 在主观信念分布引出中的差异，提出三个递进式假说(H/HH/HX)；
拒绝 Manski (2004) 关于"无激励则无歪曲动机"的双重否定式辩护；
揭示假设性偏差在总体均值层面可能不显著，但在人口子样本层面存在"相互抵消的偏差"(offsetting biases)，警示个体数据分析中的逻辑谬误；
验证 cheap talk + 非显著性报酬作为成本与准确性折中方案的潜力；
通过 RDU 稳健性检验，确认风险态度对连续分布 QSR 推断影响有限。

维度1：实验设计分析

一、核心研究问题与动机

本文探讨一个核心方法论问题：通过假设性调查(hypothetical surveys)与激励相容评分规则(incentivized scoring rules)所引出的主观信念分布是否相同？ 如果不同，两者之间是否存在相关性？能否用激励条件下的结果来校准假设性调查的回答？

研究动机在于假设性调查具有成本低、易于大规模实施、可用于不可验证事件等优势，若能证明其与激励性方法产生相同结果，将极具实用价值。然而，实验经济学数十年的研究表明，正向激励确实影响回答的精度和偏差，因此不能简单假定"没有激励就没有歪曲动机"这种双重否定逻辑。

三个检验假说

假说一：仅去除激励的显著性(salience)，保留评分规则的文字说明和界面，是否产生相同的信念回答？（Treatment H vs. R）
假说二：完全去除评分规则的语言框架，仅用简单直接的方式询问信念，是否产生相同结果？（Treatment HH vs. R）
假说三：提供"cheap talk"加上非显著性报酬（non-salient payoff），是否能缓解假设性偏差？（Treatment HX vs. R）

二、研究方法与实验设计

信念引出机制：二次评分规则 (QSR)

采用 Matheson and Winkler (1976) 的离散化二次评分规则 (Quadratic Scoring Rule, QSR) 用于连续分布
将定义域划分为 K=10 个区间，被试将 100 个代币分配到各区间，形成直方图式的主观概率分布
评分公式：S = (2 x r_k) - Sum(r_i^2)，其中 r_k 为真实区间获得的报告密度
广义形式加入禀赋 alpha 和缩放系数 beta，实验中取 alpha = beta = 25，最大报酬 $50

QSR 在风险厌恶下的理论性质（Harrison et al., 2012）

关键发现：对于连续事件上的主观分布引出，风险厌恶的影响远小于二元事件情形：

个体不会对主观概率为零的事件报告正概率
两个事件获得相同报告概率，则真实主观概率也相等（无论风险态度）
若真实分布对称，报告的均值精确等于真实均值
风险厌恶仅使报告分布"变平"（趋向均匀），但不改变支撑集
可以对风险厌恶造成的偏离做上界估计

实验设计

被试：乔治亚州立大学 171 名本科生，2012年7月招募
被试间设计，四组处理：
- Treatment R（控制组，N=71）：真实激励，显著性报酬，使用 QSR
- Treatment H（N=33）：与 R 相同界面和文字，但明确说明报酬为假设性的
- Treatment HH（N=37）：去除评分规则语言，仅要求被试用滑块输入真实信念
- Treatment HX（N=30）：与 H 类似但额外给予 $50 非显著性报酬，附加 cheap talk 鼓励认真作答
所有被试先完成 57 道以上的二元彩票选择任务（用于风险态度估计）
15 个信念问题涵盖：复利计算、实际利率、男/女预期寿命、亚特兰大通胀率（总体及三个分项）、心脏病死亡率、癌症死亡率、吸烟致癌率（男/女）、吸烟致心脏病率、酒驾致死率（总体及21-24岁）

统计方法

区间回归模型 (Interval Regression)：考虑左删截和右删截区间，假设潜在响应正态分布
模型同时估计均值 mu 和方差 ln(sigma) 的协变量效应
控制人口统计变量（性别、年龄、种族、GPA）及其与处理变量的交互效应
稳健性检验：估计每位被试的 RDU（秩依赖效用）模型，检验 SEU 假设是否影响推断

三、核心发现与结论

主要结果

假设性偏差确实存在且显著：
- R vs. H/HH 比较中，15 个问题中 7 个在 5% 水平联合显著，9 个在 10% 水平显著
- 例：通胀率问题中，真实激励均值 3.3% vs. 假设性均值 4.6%（p < 0.001），假设性偏差 1.3 个百分点
- 心脏病死亡率：真实均值 38.6% vs. 假设性均值 45.8%（p = 0.009）
- 定量差异在某些问题上高达 6.8 个百分点
非显著性报酬 + cheap talk 可缓解偏差（Treatment HX）：
- R vs. HX 比较中，通胀率问题均值无统计显著差异（p = 0.11），HX 均值 2.9% 甚至更接近真实值 2.1%
- 心脏病死亡率：HX 均值 36.3% vs. R 均值 38.6%（p = 0.56），无显著差异
- 但此效果在人口统计交互层面是脆弱的
假设性偏差的人口统计模式不一致：
- 偏差因特定人口子样本而显著变化，且跨问题不系统
- 总体无差异的表象源于子样本间"相互抵消的偏差"（offsetting biases）
- 这意味着不能将总体无差异的结论推广到个体层面
RDU 稳健性检验：
- 5% 显著水平下，46% 被试被归类为 EUT 一致，54% 为 RDU
- 加入 RDU 控制变量后，关于处理效应的推断基本不变
- 仅在"剩余寿命"问题上，RDU 被试的信念有所不同

核心结论

可以拒绝"假设性与激励性回答无差异"的天真断言
但对于某些推断（如整体样本均值），假设性调查可能提供可靠度量
不能将总体层面的"无差异"结论直接应用于个体数据分析--这是逻辑谬误 (non sequitur)
假设性调查与激励方法应视为互补关系：大规模假设性调查可与小样本激励实验结合，后者用于校准

四、理论贡献、局限与启示

理论贡献

首次系统实验检验假设性调查与激励评分规则在主观信念分布引出中的差异
澄清了 Manski (2004) 关于假设性概率调查的辩护论点的逻辑局限性：
- "无激励歪曲"是弱双重否定论证
- "信念不可直接观测"恰好支持 Savage 式用行为定义信念的方法
- 评分规则确实需要验证，但可验证事件大量存在
展示了 QSR 在连续分布情形下对风险厌恶具有良好的鲁棒性（Harrison et al., 2012 的六条结论）
揭示了人口统计特征如何以非系统性方式调节假设性偏差

局限性

被试为大学本科生，外部效度有限
样本量偏小（各处理组 30-71 人）
Treatment HX 的效果在人口统计交互中不稳健
仅考虑可验证事件，对不可验证事件（假设性调查最大应用场景）的适用性仍需检验
SEU/RDU 的分类基于二元彩票选择，推广到主观概率领域依赖额外假设

对实验信念研究的启示

设计层面：在信念引出实验中应优先使用激励相容机制（如 QSR），不能想当然认为假设性调查等价
分析层面：即使总体均值无差异，也不能在个体层面将假设性回答等同于激励性回答
互补策略：大规模调查 + 小规模激励实验进行校准，是兼顾成本与准确性的可行方案
cheap talk + 非显著性报酬是一种有前景的缓解假设性偏差的方法，但其效果依赖于人口统计构成
对于信念引出中的风险态度问题，连续分布上的 QSR 比二元事件更具鲁棒性

关键参考文献

Matheson & Winkler (1976) - QSR 的理论基础
Harrison, Martinez-Correa, Swarthout & Ulm (2012) - QSR 在风险厌恶下的性质
Manski (2004) - 假设性概率调查的辩护
Savage (1971, 1972) - 用行为定义主观信念
Blackburn, Harrison & Rutstrom (1994) - 假设性调查的统计偏差函数校准

维度2：理论模型

离散化二次评分规则 (Discrete QSR)：

域划分为 K=10 个区间，被试将 100 个代币分配至各区间形成主观直方图
评分函数：S = (2 × r_k) - Σ(r_i²)，r_k 为真实区间的报告密度
广义形式 S = α + β × [(2 × r_k) - Σ(r_i²)]，实验取 α = β = 25，最大报酬 $50

Harrison et al. (2012) 的六条 QSR 性质（连续分布情形下风险厌恶的影响弱于二元事件）：

个体不会对真实主观概率为零的事件报告正概率；
两事件报告概率相等则真实主观概率相等；
真实分布对称时报告均值精确等于真实均值；
风险厌恶仅"压平"分布，不改变支撑集；
可对风险厌恶引致偏离做上界估计；
该性质独立于具体效用函数形式。

SEU vs. RDU 估计框架：基于 57 道二元彩票选择估计每位被试的秩依赖效用模型参数，作为信念引出的辅助稳健性变量。

区间回归 (Interval Regression)：将报告分布视为左/右删截区间数据，假设潜在响应正态分布，同步估计均值 μ 与方差 ln(σ) 的协变量效应。

维度3：核心发现

假设性偏差显著存在：15 个信念问题中 7 个在 5% 水平、9 个在 10% 水平联合显著(R vs. H/HH)；
定量幅度可观：通胀率假设性均值高估 1.3 个百分点(4.6% vs. 3.3%, p<0.001)；心脏病死亡率高估 7.2 个百分点(45.8% vs. 38.6%, p=0.009)；某些问题高达 6.8 个百分点；
HX 处理可缓解偏差：通胀率 HX 均值 2.9% 与真实激励 R 均值 3.3% 无显著差异(p=0.11)；心脏病死亡率 HX 均值 36.3% 与 R 均值 38.6% 无显著差异(p=0.56)；
偏差在人口子样本间相互抵消：总体无差异表象掩盖了子样本层面的系统性偏离，跨问题模式不一致；
RDU 稳健性：54% 被试归类为 RDU，46% 为 EUT 一致；加入 RDU 控制后处理效应推断基本不变。

维度4：变量概览

自变量（处理）：

Treatment R：真实激励 + 显著性报酬 + QSR 文字（控制组，N=71）
Treatment H：假设性报酬 + 保留 QSR 文字与界面（N=33）
Treatment HH：完全去除 QSR 语言，滑块直接报告信念（N=37）
Treatment HX：假设性 + 非显著性 $50 报酬 + cheap talk（N=30）

因变量：

信念分布的均值 μ
信念分布的对数标准差 ln(σ)
报告分布形状（通过 100 代币分配观测）

控制变量：

性别、年龄、种族、GPA
RDU/EUT 风险态度类型（基于 57 道彩票选择）
处理变量与人口统计的交互项

信念问题领域（15 个问题）：复利、实际利率、男/女预期寿命、亚特兰大通胀率(总体+三分项)、心脏病死亡率、癌症死亡率、吸烟致癌率(男/女)、吸烟致心脏病、酒驾致死率(总体+21-24岁)。

维度5：局限性

样本外部效度有限：被试为乔治亚州立大学 171 名本科生，难以推广至成年决策者或专家；
样本量偏小：各处理组 30-71 人，子样本统计功效不足；
HX 效果脆弱：cheap talk + 非显著性报酬的缓解效应在人口统计交互层面不稳健；
仅限可验证事件：未检验对于不可验证事件(假设性调查最大应用场景)的适用性；
风险态度估计依赖外推：SEU/RDU 分类基于二元彩票，推广到主观概率领域依赖额外假设；
未考察学习与重复：单次实验，未检验反复经验对假设性偏差的衰减效应；
未与其他激励机制对比：未与 BSR (Binarized Scoring Rule)、BDM 等机制并列比较。

维度6：与其他文献的关系

同作者 QSR 方法论系列：Harrison_2017_ScoringRules_SubjectiveProbability 系统化了主观概率分布的评分规则；Harrison_BeliefDistributions_BayesianOverconfidence 将 QSR 应用于贝叶斯过度自信检测；
激励相容机制的替代方案：Danz_Vesterlund_2022_BeliefElicitation_BIC 比较 BIC 与 BSR；Offerman_2009_TruthSerum_ScoringRules 对评分规则做风险中性化校正；Peeters_2017_IntervalBeliefs_Elicitation 提出区间信念引出方法；
激励对信念引出的影响：Canen_2022_BeliefElicitation_Incentives 检验激励效应；Wang_Zhang_2020_BeliefElicitation_Methods 综合方法比较；
理论辩护对照：本文直接挑战 Manski (2004) 对假设性概率调查的辩护逻辑；继承 Savage (1971, 1972) 用行为定义主观信念的传统；
早期假设性偏差校准：Blackburn, Harrison & Rutström (1994) 关于支付意愿引出的统计偏差函数校准。

维度7：可拓展的研究方向

不可验证事件的假设性偏差：目前研究受限于可验证事件，未来可设计长期随访或代理结果验证机制；
跨文化与跨教育水平比较：在不同样本(发展中国家、低教育群体、专业人士)中重复检验；
大语言模型作为校准工具：用 LLM 模拟激励性回答，与小样本激励实验校准结果对比；
动态信念引出：在重复决策环境中检验假设性偏差的学习衰减；
HX 处理的稳健化：探索 cheap talk 文本的最优内容、长度与个体异质性匹配；
与神经/眼动数据结合：检验假设性 vs. 激励性条件下认知投入的差异；
机器学习校准函数：用机器学习方法基于人口统计预测假设性偏差，构建个体级校准函数；
金融决策外部效度：将 QSR 引出的信念应用于资产组合预测，检验预测有效性。

关键结论

假设性调查与激励性 QSR 不等价：可拒绝两者无差异的天真断言，假设性偏差在总体与子样本层面均存在显著证据；
均值同等不等于个体同等：即使总体均值无显著差异，也不能在个体数据分析中将假设性回答等同于激励性回答——这是逻辑谬误(non sequitur)；
互补策略可行：大规模假设性调查 + 小规模激励实验校准是兼顾成本与准确性的实用路径；
cheap talk + 非显著性报酬是有前景的折中，但效果依赖人口统计构成，需谨慎使用；
连续分布 QSR 对风险厌恶具有良好鲁棒性，方法论上优于二元事件评分规则。

Harrison_HypotheticalSurveys_ScoringRules