Belief Elicitation and Behavioral Incentive Compatibility

Authors: David Danz, Lise Vesterlund, Alistair J. Wilson
Journal: American Economic Review, 2022, 112(9): 2851-2883
DOI: https://doi.org/10.1257/aer.20201248
JEL: D83, D91

一句话总结

提出"行为激励相容"（Behavioral Incentive Compatibility, BIC）概念, 通过两罐信念引出实验证明: 即使理论上激励相容的Binarized Scoring Rule（BSR）在向被试提供完整定量激励信息时反而导致41.5%的虚假报告（且系统性向中心0.5偏移）, 远高于不提供信息的21.7%, 并通过复制Niederle-Vesterlund (2007)展示这一center-bias可以导致与原始研究定性相反的性别差异结论。

研究问题

理论上激励相容（IC）的信念引出规则在实际行为层面是否真正激励相容? 即被试是否真实报告其信念?
BSR这种"防对冲"的二元化评分规则在行为层面是否仍存在偏差?
如果存在偏差, 这种偏差是否系统性影响经济实证研究的推断结论（如性别自信差异、参赛差异）?
哪些机制——hedging动机、复合彩票化简困难、对激励的认知混淆——驱动了行为层面的虚假报告?

核心贡献

概念贡献: 首次明确区分"理论激励相容"（theoretical IC）与"行为激励相容"（BIC）, 提出两个可操作的诊断条件: (a) 增加激励信息不应增加虚假报告; (b) 直接选择激励彩票时多数人应选理论最优。
方法贡献: 设计两罐信念引出实验+诱导先验（induced prior）的清洁基准, 让真实信念 $q^* = \pi_0$ 已知, 使虚假报告可被精确测量。
实证贡献: 证明现有"金标准"BSR违反两个BIC弱条件, 41.5%虚假报告率, 主要偏向0.5中心方向。
推断警示: 通过完整复制Niederle & Vesterlund (2007), 量化展示center-biased reporting如何使原本"男性更过度自信解释参赛差异"的结论变成"信心无性别差异、不解释参赛差异", 揭示信念引出方法对实证文献结论的根本性影响。
机制分解: 将虚假报告分解为任务困惑（38%）、复合彩票化简困难（25%）、hedging等其他特征（37%）。
设计建议: 提出Description-only或Paired-Uniform方法等改进方向, 强调"少即是多"——隐藏定量激励信息反而提高真实报告率。

维度1：实验设计分析

实验任务详细流程

核心范式：两罐猜测任务 + BSR信念引出

阶段0：实验准备

被试为匹兹堡大学本科生，在PEEL实验室参与个体决策任务
每个treatment安排3场session，每场目标招募20人
被试阅读纸质指导语，实验员朗读并播放摘要幻灯片
平均session时长71分钟，平均收入$20.08（含$8出场费）

阶段1：每期开始 -- 场景呈现（共10期）

屏幕展示两个罐子：一个红罐（红球多于蓝球），一个蓝罐（蓝球多于红球），每罐各含5个球
系统告知被试红罐被选中的先验概率 $\pi_0$ （以"X-in-ten chance"形式呈现）
先验概率在 $\{0.2, 0.3, 0.5, 0.7, 0.8\}$ 中变化

阶段2：三次顺序猜测

猜测1（Prior elicitation）： 被试在未看到任何信号的情况下，在0-100%的滑块上报告"被选中的是红罐"的概率 $q$ 。此猜测直接对应已知的先验概率 $\pi_0$ ，是最干净的测试truthful reporting的指标
猜测2： 观察从被选中罐子中的第一次球色抽取后，更新并报告后验概率
猜测3： 观察第二次独立抽取后，再次更新并报告后验概率

阶段3：BSR激励机制的运作

每个暂定猜测 q 实时对应一对状态依存彩票：
- 若真实为红罐：以 $1-(1-q)^2$ 的概率赢得$8
- 若真实为蓝罐：以 $1-q^2$ 的概率赢得$8
在Information treatment中，滑块下方实时显示两个彩票的具体中奖概率

阶段4：期末反馈（因treatment而异）

Information treatment：显示被选中的罐子、三次猜测、以及每次猜测对应的实际中奖概率
No-Information treatment：仅显示被选中的罐子

阶段5：支付

10期中随机抽取2期的各1次猜测用于支付
session结束后还完成风险偏好测量（价格表）和认知反思测试（CRT）

各Treatment的信息操纵

Treatment	定量激励信息	界面显示中奖率	期末反馈中奖率	计算器	样本量
Information（基准）	完整提供	是	是	否	60
No-Information	完全移除	否	仅显示哪个罐被选中	否	60
RCL (Reduction-of-Compound-Lottery)	完整提供	是	是	是（帮助化简复合彩票）	59
Feedback	逐步获得	否（同No-Info界面）	是（同Information反馈）	否	60
Description	仅定性描述机制规则	否	否	否	60
Incentives-Only	直接展示彩票对选择	N/A	N/A	否	162

NV复制实验（Niederle and Vesterlund 2007）

任务： 被试在2分钟内尽量多地做两位数加法题，分三种激励条件：计件制（$0.50/题）、锦标赛（4人组赢者得$2.00/题）、自选制
信念引出： 任务结束后用BSR引出被试对自己在4人锦标赛中排名的主观信念
两个treatment： NV-Information（提供BSR定量信息）vs. NV-No-Information（不提供）
样本量：NV-Information 68人，NV-No-Information 74人（线上实验）

其他实验设计要素

实验类型： 实验室实验（主实验）+ 线上实验（NV复制）
Treatment设计： 被试间设计（6个主要treatments + 2个NV treatments）
随机化： 10个scenarios的呈现顺序在session内对被试随机排列；信号抽取跨treatment匹配
观测变量：
- 因变量：False report rate（报告偏离诱导先验的比例）、偏差方向（向中心/向近端极值/向远端极值）
- 控制变量：风险态度、CRT得分、人口统计
因果识别： Information vs. No-Information的between-subject比较，直接操纵激励信息的有无来识别信息对虚假报告的因果效应；Feedback treatment提供within-subject的渐进识别
样本量： 主实验约299个被试（across treatments），NV复制142人，Incentives-Only 162人
激励机制： BSR（Binarized Scoring Rule），$8奖品的彩票
亮点：
- 提出"行为激励相容"（Behavioral Incentive Compatibility, BIC）的概念，区别于理论IC
- 提出两个可操作的弱条件来诊断BIC：(1) 激励信息不应增加虚假报告；(2) 直接选择激励彩票时多数人应选择理论最优
- Incentives-Only treatment极具巧思：剥离信念引出框架，直接让被试在BSR的彩票对中选择
- NV复制展示了center-biased reporting对推断的严重实际后果
局限：
- 主实验使用诱导先验（induced prior），真实主观信念环境下偏差可能不同
- 被试为大学生，外部效度有限
- 未能完全分离hedging动机和认知局限的各自贡献

维度2：理论模型

基准理论

Binarized Scoring Rule (BSR)（Hossain and Okui 2013）：基于Roth and Malouf (1979)的思想，将报告的信念映射为一对状态依存彩票，对任意EU偏好（包括风险厌恶）都理论上激励相容。

给定报告 $q$ 和先验 $\pi_0$ ：
- 红罐被选中时中奖概率： $1 - (1-q)^2$
- 蓝罐被选中时中奖概率： $1 - q^2$
- 总期望中奖概率： $\pi_0 \cdot [1-(1-q)^2] + (1-\pi_0) \cdot [1-q^2]$
真实报告 $q = \pi_0$ 时期望中奖概率最大化

行为偏差的形式化：Center-Bias模型

论文提出一个简单的center-bias模型用于预测推断偏误：

q_i = (1-\alpha) \cdot q_i^* + \alpha \cdot c

其中：

$q_i$ 为被试 $i$ 的引出信念
$q_i^*$ 为其真实信念
$\alpha$ 为center-bias概率（以概率 $\alpha$ 报告中心值 $c$ ）
$c$ 为中心常数（如0.5）

推断偏误的理论预测

信念作为因变量（方程1）： $q_i = \mu_q + \delta_q \cdot Female_i + \epsilon_i$

Center-bias导致群体差异的估计量 $\hat{\delta}_q$ 被衰减至 $(1-\alpha) \cdot \delta_q$
即低估信心的性别差异

信念作为控制变量（方程2）： $y_i = \mu_y + \delta_y \cdot Female_i + \beta_q \cdot q_i + \nu_i$

渐近偏误与 $\beta_q \cdot \delta_q$ 成正比
若男性更过度自信（ $\delta_q < 0$ ）且信心正向影响参赛（ $\beta_q > 0$ ），则center-bias预测 $\hat{\delta}_y < \delta_y < 0$
即高估参赛的性别差异

关键假设

BSR理论IC依赖于被试能正确化简复合彩票
真实报告的期望支付优势极小（如先验0.8报告0.7仅损失1个百分点中奖率）

可检验预测

如果BSR满足BIC，激励信息不应增加虚假报告 --> 实际上增加了（违反条件1）
如果BSR满足BIC，直接选择彩票对时多数被试应选理论最优 --> 实际上多数未选（违反条件2）

维度3：核心发现

主要结论

发现1：信息增加虚假报告

Information treatment虚假报告率：41.5%（85%被试至少有一期虚假报告）
No-Information treatment虚假报告率：21.7%
差异高度显著（ $p < 0.001$ ）

发现2：虚假报告系统性地偏向中心（center-biased）

非中心先验（ $\pi_0 \neq 0.5$ ）的虚假报告率：Information 52.8% vs. No-Information 20.3%
中心先验（ $\pi_0 = 0.5$ ）的虚假报告率：Information 24.6% vs. No-Information 23.7%（无显著差异）
非中心先验的虚假报告中，53.7%偏向中心，32.6%偏向先验，13.7%偏向远端极值
Center-bias在No-Information中不存在（ $p = 0.317$ 非中心vs中心先验差异不显著）

发现3：RCL部分改善但未消除问题

RCL虚假报告率：32.5%（非中心先验39.8%）
相比Information降低9个百分点（ $p = 0.130$ 总体；非中心先验 $p = 0.056$ ）
消除了pull-to-center效应，但虚假报告仍高

发现4：Feedback treatment确认因果路径

前2期虚假报告率21.7%（= No-Information水平），后2期升至34.2%（ $p = 0.003$ ）
最终与Information treatment不可区分（ $p = 0.282$ ）

发现5：虚假报告来源分解

约38%可归因于任务本身的困惑（ $= 0.203/0.528$ ）
约25%归因于无法化简复合彩票（ $= (0.528-0.398)/0.528$ ）
约37%归因于BSR激励的其他特征如hedging（ $= (0.398-0.203)/0.528$ ）

发现6：Incentives-Only treatment -- 多数人未选理论最优

当直接展示BSR彩票对供选择时，大多数被试未选择理论上应被唯一最大化的彩票对
偏差方向与center-biased reporting一致，反映hedging动机

发现7：NV复制的推断影响

NV-No-Information：男性比女性更自信15个百分点（ $p = 0.005$ ），信心部分解释参赛性别差异 --> 复制原始NV结论
NV-Information：性别信心差异仅4个百分点（ $p = 0.523$ ），信心不解释参赛差异 --> 得出与原始NV定性相反的结论

发现8：Description treatment

虚假报告率24.5%，与No-Information无显著差异（ $p = 0.610$ ），显著低于Information（ $p = 0.004$ ）
无center-bias证据

稳健性

后验报告（猜测2和3）呈现类似的center-biased pattern
放宽虚假报告定义（允许5个百分点误差）结果一致
风险态度和CRT得分不预测虚假报告率（仅RCL中CRT有预测力）
QSR（Quadratic Scoring Rule）的Information-No-Information比较产生类似结果（39.2% vs. 25.6%虚假报告）
对先验和后验概率的分析结果定性一致

维度6：与其他文献的关系

所属领域

实验经济学方法论 -- 信念引出机制的行为评估

与关键文献的关系

文献	关系
Hossain and Okui (2013)	BSR的提出者；本文检验BSR的行为表现
Roth and Malouf (1979)	BSR的理论基础（state-contingent lotteries）
Nelson and Bessler (1989); Schotter and Trevino (2014)	信念引出文献综述；IC规则优于非IC
Niederle and Vesterlund (2007)	性别与竞争经典研究；本文复制以展示center-bias的推断后果
Li (2017)	Obviously strategy-proof机制；本文关注经验/行为层面的IC
Cason and Plott (2014)	机制中的misconception问题；与本文发现一致
Babcock et al. (2017)	使用BSR引出信念的应用研究；发现类似的保守报告
Wilson and Vespa (2018)	Paired-Uniform Scoring：用非数学语言实现BSR

核心贡献

概念贡献： 提出"行为激励相容"（BIC）概念，强调信念引出机制不仅需要理论IC，还需在行为层面IC
诊断工具： 提出两个简单可操作的弱条件来检测BIC违反：(a) 激励信息不应增加虚假报告；(b) 纯选择中多数人应选理论最优
实证发现： BSR这一最先进的信念引出规则违反了两个BIC弱条件
推断警示： 通过NV复制定量展示center-biased reporting可以导致定性相反的推断结论
设计建议： 提出可能的改进方向：减少定量激励信息（Description treatment）、使用更粗糙但更稳健的引出方式

维度4：变量概览

变量	类型	测量方式
报告概率 $q$	因变量	0-100滑块上的报告
诱导先验 $\pi_0$	自变量（核心基准）	实验员告知的红罐先验 ∈ {0.2, 0.3, 0.5, 0.7, 0.8}
虚假报告率（False Report Rate）	主要因变量	$\mathbb{1}\{q \neq \pi_0\}$ 比例
偏移方向	因变量	向中心0.5 / 向远端极值 / 向先验
Treatment	自变量（操控）	Information / No-Info / RCL / Feedback / Description / Incentives-Only
信号	自变量	从被选中罐子抽取的球色（红/蓝）
风险偏好	控制	价格表（price list）测量
CRT得分	控制	Cognitive Reflection Test
性别	关键调节（NV复制）	自报
任务表现/选择	因变量（NV复制）	加法题数量、是否选择tournament

维度5：局限性

诱导先验环境: 主实验使用客观可验证的先验 $\pi_0$ , 与真实主观信念环境不同——在真正不知道真相的情境下虚假报告模式可能不同。
大学生样本: PEEL实验室的匹兹堡大学本科生外部效度有限, 无法直接推广至专业投资者、消费者等群体。
未识别hedging vs认知混淆: 虽然分解出38/25/37%三块, 但hedging动机与对激励规则的混淆难以彻底分离。
8美元低stake: 激励金额较小, 在更高stake下被试可能投入更多认知努力理解BSR, 行为偏差幅度可能不同。
未测试replacement机制: 论文提出Description-only更优, 但未系统设计能完全消除center-bias的替代机制（如Paired-Uniform需进一步验证）。
NV复制的样本量: 线上实验142人, 性别效应虽然定性反转但统计精度有限。
未涵盖动态信念引出: 仅考察静态信念, 未检验BSR在动态信号到来后多次引出的累积偏差。
跨文化外部效度: 未在不同文化背景被试中检验center-bias幅度差异。

维度7：可拓展的研究方向

新机制的BIC检验: 在新提出的信念引出机制（如Karni机制、Markov信念引出）上系统应用本文的两个BIC弱条件。
真实信念环境扩展: 在主观信念（如对自身能力、宏观经济、政治结果）情境下复制本设计, 用behavioral benchmark替代induced prior。
center-bias的认知心理基础: 结合Enke_Graeber_2023_CognitiveUncertainty的认知不确定性框架, 检验center-bias是否反映"不确定时回归先验中心"的认知策略。
在重要实证文献中重做: 系统重做使用BSR/QSR的关键实证论文（性别、自信、风险偏好等领域）, 评估center-bias对结论的影响。
AI辅助引出: 用LLM作为引出助手, 实时帮助被试化简彩票, 检验是否能消除复合彩票化简困难带来的偏差。
结合其他偏差: 与Canen_2022_BeliefElicitation_Incentives的激励分析结合, 构建全面的引出方法评估框架。
金融市场应用: 在投资者信念引出（如对预期收益、波动率）实践中检验BIC违反程度, 量化对资产定价实证研究的影响。
分解hedging vs cognitive limitations: 设计正交操控（如改变彩票相关性结构）以分离两种机制贡献。
跨年龄/教育水平异质性: 检验center-bias是否在低教育/低数学能力人群中更严重, 评估调查研究在一般人群中的有效性。

附录：关键数据速查

指标	Information	RCL	No-Information	Feedback(t=1,2)	Feedback(t=9,10)	Description
总虚假报告率	0.415	0.325	0.217	0.217	0.342	0.245
非中心先验虚假率	0.528	0.398	0.203	0.200	0.406	0.278
中心先验虚假率	0.246	0.216	0.237	0.236	0.255	0.196
Center偏移（非中心）	0.283	0.169	0.058	0.031	0.087	0.108

关键结论

理论IC不等于行为IC: 提供完整BSR激励信息使虚假报告率从21.7%升至41.5%, 直接违反BIC的第一个弱条件——更多激励信息不应增加虚假报告。
虚假报告系统性向中心偏移: 非中心先验下的虚假报告中, 53.7%偏向0.5方向, 仅13.7%偏向远端极值, 说明center-bias是系统性而非随机的。
Description-only > Information: 仅定性描述BSR规则（24.5%虚假报告率）显著优于提供定量激励信息——"少即是多"。
复合彩票化简困难是部分原因但非全部: 提供化简计算器的RCL treatment降低虚假报告率约9个百分点（不显著, p=0.130）, 但仍有32.5%的虚假报告, 说明cognitive simplification只能部分解决问题。
NV复制揭示推断风险: 用No-Information条件复制Niederle-Vesterlund (2007)得到原始结论（男性更过度自信解释参赛差异）, 但用Information条件得到定性相反结论（无信心性别差异）, 警示文献中关于性别自信差异的部分发现可能是引出方法的产物。
Incentives-Only验证: 直接展示BSR彩票对让被试选择, 大多数被试未选择理论最优, 证实BIC第二个弱条件违反。
方法论建议: 经济学实验研究在使用BSR/QSR等scoring rule时应: (a) 慎重权衡是否提供完整定量激励信息; (b) 采用Description-only或non-quantitative变体; (c) 在关键发现上用多种引出方法做稳健性检验。
学科启示: 信念测量是行为经济学的基石, 但方法本身具有可被中心偏倚污染的特性, 需要建立"behavioral mechanism design"的新研究议程。

Danz_Vesterlund_2022_BeliefElicitation_BIC

Belief Elicitation and Behavioral Incentive Compatibility

一句话总结

研究问题

核心贡献

维度1：实验设计分析

实验任务详细流程

阶段0：实验准备

阶段1：每期开始 -- 场景呈现（共10期）

阶段2：三次顺序猜测

阶段3：BSR激励机制的运作

阶段4：期末反馈（因treatment而异）

阶段5：支付

各Treatment的信息操纵

NV复制实验（Niederle and Vesterlund 2007）

其他实验设计要素

维度2：理论模型

基准理论

行为偏差的形式化：Center-Bias模型

推断偏误的理论预测

关键假设

可检验预测

维度3：核心发现

主要结论

稳健性

维度6：与其他文献的关系

所属领域

与关键文献的关系

核心贡献

标签

维度4：变量概览

维度5：局限性

维度7：可拓展的研究方向

附录：关键数据速查

关键结论

🔗 链接到这篇笔记