Danz_Vesterlund_2022_BeliefElicitation_BIC
Belief Elicitation and Behavioral Incentive Compatibility
Authors: David Danz, Lise Vesterlund, Alistair J. Wilson
Journal: American Economic Review, 2022, 112(9): 2851-2883
DOI: https://doi.org/10.1257/aer.20201248
JEL: D83, D91
一句话总结
提出"行为激励相容"(Behavioral Incentive Compatibility, BIC)概念, 通过两罐信念引出实验证明: 即使理论上激励相容的Binarized Scoring Rule(BSR)在向被试提供完整定量激励信息时反而导致41.5%的虚假报告(且系统性向中心0.5偏移), 远高于不提供信息的21.7%, 并通过复制Niederle-Vesterlund (2007)展示这一center-bias可以导致与原始研究定性相反的性别差异结论。
研究问题
- 理论上激励相容(IC)的信念引出规则在实际行为层面是否真正激励相容? 即被试是否真实报告其信念?
- BSR这种"防对冲"的二元化评分规则在行为层面是否仍存在偏差?
- 如果存在偏差, 这种偏差是否系统性影响经济实证研究的推断结论(如性别自信差异、参赛差异)?
- 哪些机制——hedging动机、复合彩票化简困难、对激励的认知混淆——驱动了行为层面的虚假报告?
核心贡献
- 概念贡献: 首次明确区分"理论激励相容"(theoretical IC)与"行为激励相容"(BIC), 提出两个可操作的诊断条件: (a) 增加激励信息不应增加虚假报告; (b) 直接选择激励彩票时多数人应选理论最优。
- 方法贡献: 设计两罐信念引出实验+诱导先验(induced prior)的清洁基准, 让真实信念q^* = \pi_0已知, 使虚假报告可被精确测量。
- 实证贡献: 证明现有"金标准"BSR违反两个BIC弱条件, 41.5%虚假报告率, 主要偏向0.5中心方向。
- 推断警示: 通过完整复制Niederle & Vesterlund (2007), 量化展示center-biased reporting如何使原本"男性更过度自信解释参赛差异"的结论变成"信心无性别差异、不解释参赛差异", 揭示信念引出方法对实证文献结论的根本性影响。
- 机制分解: 将虚假报告分解为任务困惑(38%)、复合彩票化简困难(25%)、hedging等其他特征(37%)。
- 设计建议: 提出Description-only或Paired-Uniform方法等改进方向, 强调"少即是多"——隐藏定量激励信息反而提高真实报告率。
维度1:实验设计分析
实验任务详细流程
核心范式:两罐猜测任务 + BSR信念引出
阶段0:实验准备
- 被试为匹兹堡大学本科生,在PEEL实验室参与个体决策任务
- 每个treatment安排3场session,每场目标招募20人
- 被试阅读纸质指导语,实验员朗读并播放摘要幻灯片
- 平均session时长71分钟,平均收入$20.08(含$8出场费)
阶段1:每期开始 -- 场景呈现(共10期)
- 屏幕展示两个罐子:一个红罐(红球多于蓝球),一个蓝罐(蓝球多于红球),每罐各含5个球
- 系统告知被试红罐被选中的先验概率 \pi_0(以"X-in-ten chance"形式呈现)
- 先验概率在 \{0.2, 0.3, 0.5, 0.7, 0.8\} 中变化
阶段2:三次顺序猜测
- 猜测1(Prior elicitation): 被试在未看到任何信号的情况下,在0-100%的滑块上报告"被选中的是红罐"的概率 q。此猜测直接对应已知的先验概率 \pi_0,是最干净的测试truthful reporting的指标
- 猜测2: 观察从被选中罐子中的第一次球色抽取后,更新并报告后验概率
- 猜测3: 观察第二次独立抽取后,再次更新并报告后验概率
阶段3:BSR激励机制的运作
- 每个暂定猜测 q 实时对应一对状态依存彩票:
- 若真实为红罐:以 1-(1-q)^2 的概率赢得$8
- 若真实为蓝罐:以 1-q^2 的概率赢得$8
- 在Information treatment中,滑块下方实时显示两个彩票的具体中奖概率
阶段4:期末反馈(因treatment而异)
- Information treatment:显示被选中的罐子、三次猜测、以及每次猜测对应的实际中奖概率
- No-Information treatment:仅显示被选中的罐子
阶段5:支付
- 10期中随机抽取2期的各1次猜测用于支付
- session结束后还完成风险偏好测量(价格表)和认知反思测试(CRT)
各Treatment的信息操纵
| Treatment | 定量激励信息 | 界面显示中奖率 | 期末反馈中奖率 | 计算器 | 样本量 |
|---|---|---|---|---|---|
| Information(基准) | 完整提供 | 是 | 是 | 否 | 60 |
| No-Information | 完全移除 | 否 | 仅显示哪个罐被选中 | 否 | 60 |
| RCL (Reduction-of-Compound-Lottery) | 完整提供 | 是 | 是 | 是(帮助化简复合彩票) | 59 |
| Feedback | 逐步获得 | 否(同No-Info界面) | 是(同Information反馈) | 否 | 60 |
| Description | 仅定性描述机制规则 | 否 | 否 | 否 | 60 |
| Incentives-Only | 直接展示彩票对选择 | N/A | N/A | 否 | 162 |
NV复制实验(Niederle and Vesterlund 2007)
- 任务: 被试在2分钟内尽量多地做两位数加法题,分三种激励条件:计件制($0.50/题)、锦标赛(4人组赢者得$2.00/题)、自选制
- 信念引出: 任务结束后用BSR引出被试对自己在4人锦标赛中排名的主观信念
- 两个treatment: NV-Information(提供BSR定量信息)vs. NV-No-Information(不提供)
- 样本量:NV-Information 68人,NV-No-Information 74人(线上实验)
其他实验设计要素
- 实验类型: 实验室实验(主实验)+ 线上实验(NV复制)
- Treatment设计: 被试间设计(6个主要treatments + 2个NV treatments)
- 随机化: 10个scenarios的呈现顺序在session内对被试随机排列;信号抽取跨treatment匹配
- 观测变量:
- 因变量:False report rate(报告偏离诱导先验的比例)、偏差方向(向中心/向近端极值/向远端极值)
- 控制变量:风险态度、CRT得分、人口统计
- 因果识别: Information vs. No-Information的between-subject比较,直接操纵激励信息的有无来识别信息对虚假报告的因果效应;Feedback treatment提供within-subject的渐进识别
- 样本量: 主实验约299个被试(across treatments),NV复制142人,Incentives-Only 162人
- 激励机制: BSR(Binarized Scoring Rule),$8奖品的彩票
- 亮点:
- 提出"行为激励相容"(Behavioral Incentive Compatibility, BIC)的概念,区别于理论IC
- 提出两个可操作的弱条件来诊断BIC:(1) 激励信息不应增加虚假报告;(2) 直接选择激励彩票时多数人应选择理论最优
- Incentives-Only treatment极具巧思:剥离信念引出框架,直接让被试在BSR的彩票对中选择
- NV复制展示了center-biased reporting对推断的严重实际后果
- 局限:
- 主实验使用诱导先验(induced prior),真实主观信念环境下偏差可能不同
- 被试为大学生,外部效度有限
- 未能完全分离hedging动机和认知局限的各自贡献
维度2:理论模型
基准理论
Binarized Scoring Rule (BSR)(Hossain and Okui 2013):基于Roth and Malouf (1979)的思想,将报告的信念映射为一对状态依存彩票,对任意EU偏好(包括风险厌恶)都理论上激励相容。
-
给定报告 q 和先验 \pi_0:
- 红罐被选中时中奖概率:1 - (1-q)^2
- 蓝罐被选中时中奖概率:1 - q^2
- 总期望中奖概率:\pi_0 \cdot [1-(1-q)^2] + (1-\pi_0) \cdot [1-q^2]
-
真实报告 q = \pi_0 时期望中奖概率最大化
行为偏差的形式化:Center-Bias模型
论文提出一个简单的center-bias模型用于预测推断偏误:
其中:
- q_i 为被试 i 的引出信念
- q_i^* 为其真实信念
- \alpha 为center-bias概率(以概率 \alpha 报告中心值 c)
- c 为中心常数(如0.5)
推断偏误的理论预测
信念作为因变量(方程1): q_i = \mu_q + \delta_q \cdot Female_i + \epsilon_i
- Center-bias导致群体差异的估计量 \hat{\delta}_q 被衰减至 (1-\alpha) \cdot \delta_q
- 即低估信心的性别差异
信念作为控制变量(方程2): y_i = \mu_y + \delta_y \cdot Female_i + \beta_q \cdot q_i + \nu_i
- 渐近偏误与 \beta_q \cdot \delta_q 成正比
- 若男性更过度自信(\delta_q < 0)且信心正向影响参赛(\beta_q > 0),则center-bias预测 \hat{\delta}_y < \delta_y < 0
- 即高估参赛的性别差异
关键假设
- BSR理论IC依赖于被试能正确化简复合彩票
- 真实报告的期望支付优势极小(如先验0.8报告0.7仅损失1个百分点中奖率)
可检验预测
- 如果BSR满足BIC,激励信息不应增加虚假报告 --> 实际上增加了(违反条件1)
- 如果BSR满足BIC,直接选择彩票对时多数被试应选理论最优 --> 实际上多数未选(违反条件2)
维度3:核心发现
主要结论
发现1:信息增加虚假报告
- Information treatment虚假报告率:41.5%(85%被试至少有一期虚假报告)
- No-Information treatment虚假报告率:21.7%
- 差异高度显著(p < 0.001)
发现2:虚假报告系统性地偏向中心(center-biased)
- 非中心先验(\pi_0 \neq 0.5)的虚假报告率:Information 52.8% vs. No-Information 20.3%
- 中心先验(\pi_0 = 0.5)的虚假报告率:Information 24.6% vs. No-Information 23.7%(无显著差异)
- 非中心先验的虚假报告中,53.7%偏向中心,32.6%偏向先验,13.7%偏向远端极值
- Center-bias在No-Information中不存在(p = 0.317 非中心vs中心先验差异不显著)
发现3:RCL部分改善但未消除问题
- RCL虚假报告率:32.5%(非中心先验39.8%)
- 相比Information降低9个百分点(p = 0.130 总体;非中心先验p = 0.056)
- 消除了pull-to-center效应,但虚假报告仍高
发现4:Feedback treatment确认因果路径
- 前2期虚假报告率21.7%(= No-Information水平),后2期升至34.2%(p = 0.003)
- 最终与Information treatment不可区分(p = 0.282)
发现5:虚假报告来源分解
- 约38%可归因于任务本身的困惑(= 0.203/0.528)
- 约25%归因于无法化简复合彩票(= (0.528-0.398)/0.528)
- 约37%归因于BSR激励的其他特征如hedging(= (0.398-0.203)/0.528)
发现6:Incentives-Only treatment -- 多数人未选理论最优
- 当直接展示BSR彩票对供选择时,大多数被试未选择理论上应被唯一最大化的彩票对
- 偏差方向与center-biased reporting一致,反映hedging动机
发现7:NV复制的推断影响
- NV-No-Information:男性比女性更自信15个百分点(p = 0.005),信心部分解释参赛性别差异 --> 复制原始NV结论
- NV-Information:性别信心差异仅4个百分点(p = 0.523),信心不解释参赛差异 --> 得出与原始NV定性相反的结论
发现8:Description treatment
- 虚假报告率24.5%,与No-Information无显著差异(p = 0.610),显著低于Information(p = 0.004)
- 无center-bias证据
稳健性
- 后验报告(猜测2和3)呈现类似的center-biased pattern
- 放宽虚假报告定义(允许5个百分点误差)结果一致
- 风险态度和CRT得分不预测虚假报告率(仅RCL中CRT有预测力)
- QSR(Quadratic Scoring Rule)的Information-No-Information比较产生类似结果(39.2% vs. 25.6%虚假报告)
- 对先验和后验概率的分析结果定性一致
维度6:与其他文献的关系
所属领域
实验经济学方法论 -- 信念引出机制的行为评估
与关键文献的关系
| 文献 | 关系 |
|---|---|
| Hossain and Okui (2013) | BSR的提出者;本文检验BSR的行为表现 |
| Roth and Malouf (1979) | BSR的理论基础(state-contingent lotteries) |
| Nelson and Bessler (1989); Schotter and Trevino (2014) | 信念引出文献综述;IC规则优于非IC |
| Niederle and Vesterlund (2007) | 性别与竞争经典研究;本文复制以展示center-bias的推断后果 |
| Li (2017) | Obviously strategy-proof机制;本文关注经验/行为层面的IC |
| Cason and Plott (2014) | 机制中的misconception问题;与本文发现一致 |
| Babcock et al. (2017) | 使用BSR引出信念的应用研究;发现类似的保守报告 |
| Wilson and Vespa (2018) | Paired-Uniform Scoring:用非数学语言实现BSR |
核心贡献
- 概念贡献: 提出"行为激励相容"(BIC)概念,强调信念引出机制不仅需要理论IC,还需在行为层面IC
- 诊断工具: 提出两个简单可操作的弱条件来检测BIC违反:(a) 激励信息不应增加虚假报告;(b) 纯选择中多数人应选理论最优
- 实证发现: BSR这一最先进的信念引出规则违反了两个BIC弱条件
- 推断警示: 通过NV复制定量展示center-biased reporting可以导致定性相反的推断结论
- 设计建议: 提出可能的改进方向:减少定量激励信息(Description treatment)、使用更粗糙但更稳健的引出方式
标签
#belief_elicitation #incentive_compatibility #BSR #scoring_rule #center_bias #experimental_methods #behavioral_economics #mechanism_design
维度4:变量概览
| 变量 | 类型 | 测量方式 |
|---|---|---|
| 报告概率 q | 因变量 | 0-100滑块上的报告 |
| 诱导先验 \pi_0 | 自变量(核心基准) | 实验员告知的红罐先验 ∈ {0.2, 0.3, 0.5, 0.7, 0.8} |
| 虚假报告率(False Report Rate) | 主要因变量 | \mathbb{1}\{q \neq \pi_0\} 比例 |
| 偏移方向 | 因变量 | 向中心0.5 / 向远端极值 / 向先验 |
| Treatment | 自变量(操控) | Information / No-Info / RCL / Feedback / Description / Incentives-Only |
| 信号 | 自变量 | 从被选中罐子抽取的球色(红/蓝) |
| 风险偏好 | 控制 | 价格表(price list)测量 |
| CRT得分 | 控制 | Cognitive Reflection Test |
| 性别 | 关键调节(NV复制) | 自报 |
| 任务表现/选择 | 因变量(NV复制) | 加法题数量、是否选择tournament |
维度5:局限性
- 诱导先验环境: 主实验使用客观可验证的先验\pi_0, 与真实主观信念环境不同——在真正不知道真相的情境下虚假报告模式可能不同。
- 大学生样本: PEEL实验室的匹兹堡大学本科生外部效度有限, 无法直接推广至专业投资者、消费者等群体。
- 未识别hedging vs认知混淆: 虽然分解出38/25/37%三块, 但hedging动机与对激励规则的混淆难以彻底分离。
- 8美元低stake: 激励金额较小, 在更高stake下被试可能投入更多认知努力理解BSR, 行为偏差幅度可能不同。
- 未测试replacement机制: 论文提出Description-only更优, 但未系统设计能完全消除center-bias的替代机制(如Paired-Uniform需进一步验证)。
- NV复制的样本量: 线上实验142人, 性别效应虽然定性反转但统计精度有限。
- 未涵盖动态信念引出: 仅考察静态信念, 未检验BSR在动态信号到来后多次引出的累积偏差。
- 跨文化外部效度: 未在不同文化背景被试中检验center-bias幅度差异。
维度7:可拓展的研究方向
- 新机制的BIC检验: 在新提出的信念引出机制(如Karni机制、Markov信念引出)上系统应用本文的两个BIC弱条件。
- 真实信念环境扩展: 在主观信念(如对自身能力、宏观经济、政治结果)情境下复制本设计, 用behavioral benchmark替代induced prior。
- center-bias的认知心理基础: 结合Enke_Graeber_2023_CognitiveUncertainty的认知不确定性框架, 检验center-bias是否反映"不确定时回归先验中心"的认知策略。
- 在重要实证文献中重做: 系统重做使用BSR/QSR的关键实证论文(性别、自信、风险偏好等领域), 评估center-bias对结论的影响。
- AI辅助引出: 用LLM作为引出助手, 实时帮助被试化简彩票, 检验是否能消除复合彩票化简困难带来的偏差。
- 结合其他偏差: 与Canen_2022_BeliefElicitation_Incentives的激励分析结合, 构建全面的引出方法评估框架。
- 金融市场应用: 在投资者信念引出(如对预期收益、波动率)实践中检验BIC违反程度, 量化对资产定价实证研究的影响。
- 分解hedging vs cognitive limitations: 设计正交操控(如改变彩票相关性结构)以分离两种机制贡献。
- 跨年龄/教育水平异质性: 检验center-bias是否在低教育/低数学能力人群中更严重, 评估调查研究在一般人群中的有效性。
附录:关键数据速查
| 指标 | Information | RCL | No-Information | Feedback(t=1,2) | Feedback(t=9,10) | Description |
|---|---|---|---|---|---|---|
| 总虚假报告率 | 0.415 | 0.325 | 0.217 | 0.217 | 0.342 | 0.245 |
| 非中心先验虚假率 | 0.528 | 0.398 | 0.203 | 0.200 | 0.406 | 0.278 |
| 中心先验虚假率 | 0.246 | 0.216 | 0.237 | 0.236 | 0.255 | 0.196 |
| Center偏移(非中心) | 0.283 | 0.169 | 0.058 | 0.031 | 0.087 | 0.108 |
关键结论
- 理论IC不等于行为IC: 提供完整BSR激励信息使虚假报告率从21.7%升至41.5%, 直接违反BIC的第一个弱条件——更多激励信息不应增加虚假报告。
- 虚假报告系统性向中心偏移: 非中心先验下的虚假报告中, 53.7%偏向0.5方向, 仅13.7%偏向远端极值, 说明center-bias是系统性而非随机的。
- Description-only > Information: 仅定性描述BSR规则(24.5%虚假报告率)显著优于提供定量激励信息——"少即是多"。
- 复合彩票化简困难是部分原因但非全部: 提供化简计算器的RCL treatment降低虚假报告率约9个百分点(不显著, p=0.130), 但仍有32.5%的虚假报告, 说明cognitive simplification只能部分解决问题。
- NV复制揭示推断风险: 用No-Information条件复制Niederle-Vesterlund (2007)得到原始结论(男性更过度自信解释参赛差异), 但用Information条件得到定性相反结论(无信心性别差异), 警示文献中关于性别自信差异的部分发现可能是引出方法的产物。
- Incentives-Only验证: 直接展示BSR彩票对让被试选择, 大多数被试未选择理论最优, 证实BIC第二个弱条件违反。
- 方法论建议: 经济学实验研究在使用BSR/QSR等scoring rule时应: (a) 慎重权衡是否提供完整定量激励信息; (b) 采用Description-only或non-quantitative变体; (c) 在关键发现上用多种引出方法做稳健性检验。
- 学科启示: 信念测量是行为经济学的基石, 但方法本身具有可被中心偏倚污染的特性, 需要建立"behavioral mechanism design"的新研究议程。
🔗 链接到这篇笔记
- Baillon_2017_BayesianMarkets_PrivateInfo
- Canen_2022_BeliefElicitation_Incentives
- CostaGomes_2014_Beliefs_TrustGame_IV
- DellaVigna_2009_PsychologyEconomics_FieldEvidence
- GonzalezFernandez_2026_BeliefBiasIdentification
- Harrison_2017_ScoringRules_SubjectiveProbability
- Harrison_HypotheticalSurveys_ScoringRules
- Mantovani_Filippin_2026_PredictionMarkets_AverageBeliefs
- Offerman_2009_TruthSerum_ScoringRules
- Peeters_2015_Beliefs_TruthTelling
- Peeters_2017_IntervalBeliefs_Elicitation
- SelfImageConcerns_MotivatedBeliefs
- Wang_Zhang_2020_BeliefElicitation_Methods