Designing Information Provision Experiments

元数据

作者: Ingar Haaland, Christopher Roth, Johannes Wohlfart
年份: 2023
期刊: Journal of Economic Literature, 61(1), 3-40
DOI: https://doi.org/10.1257/jel.20211658
JEL分类: C90, D83, D91
类型: 方法论综述论文（Survey / Best-practice guide）

一句话总结

系统综述信息提供实验（Information Provision Experiments）的设计方法学，从先验信念测量、信息干预设计、信念更新测量、需求效应缓解到样本选择，提出了完整的最佳实践指南，是经济学实验信念研究的权威方法论参考。

研究问题

如何科学地设计信息提供实验以识别信念对经济行为的因果效应？具体包括：(1) 应使用何种方法测量先验和后验信念？(2) 信息干预应如何构建以最大化信息有效性同时最小化偏误？(3) 如何区分真实信念变化与实验者需求效应？(4) 如何选择样本、控制组、激励结构以保证统计有效性和外部效度？

核心贡献

方法论综述与系统化：首次在 Journal of Economic Literature 系统梳理近十年信息提供实验的方法学，覆盖公共经济学、政治经济学、宏观经济学、家庭金融、劳动与教育经济学、健康经济学六大应用领域。
最佳实践框架：为信念测量（定性、定量、概率）、信息干预（统计 vs. 叙事、个性化 vs. 通用）、信念更新测量、需求效应缓解、样本选择五大设计环节提供具体可操作的建议。
学习率回归的标准化：明确学习率回归方程的形式与解释（在贝叶斯正态更新框架下），为跨研究比较学习率提供统一参考。
行为弹性的IV估计框架：将信息干预作为内生信念的工具变量，形成估计信念→行为弹性的标准2SLS方法。
需求效应缓解工具集：系统整合并创新性地提出混淆式追踪、激励化结果、田野行为数据、需求处理等多种缓解手段。
典型学习率与样本量基准：提供文献中典型学习率（即时0.18-0.87，追踪降为30-70%）和样本量建议（每组700-1000人），为新研究提供经验起点。

维度1：实验设计分析

论文性质

本文是一篇方法论综述，系统梳理了信息提供实验（Information Provision Experiments）的设计框架与最佳实践建议，而非报告单一实验。文章综述了近十年来经济学顶级期刊中快速增长的信息实验文献，并针对实验设计的每个环节提出了详尽的操作建议。

信息提供实验的推荐设计框架（完整流程）

第一步：测量先验信念（Measuring Prior Beliefs）

何时测量：在提供信息干预之前，应先测量受试者的先验信念（priors）。
测量方式选择：
- 定性语言量表（Verbal Response Scales）：如"非常同意"到"非常不同意"。优点是简单易懂；缺点是人际间不可比较，存在严重的识别问题。
- 定量点估计（Quantitative Point Beliefs）：让受试者在数值量表上报告信念。优点是人际间可比；缺点是不能捕捉不确定性。建议搭配一个定性的"信心"追问。
- 概率分布（Probabilistic Beliefs）：让受试者为互斥事件赋概率。优点是有良好定义的绝对数值量表、人际间可比、可直接计算不确定性；缺点是认知负担大、部分人群难以理解概率。
- 开放式文本题（Open-Ended Questions）：不受选项启发效应影响，可直接测量"脑中浮现的内容"（what comes to mind），也可用于注意力分配研究。
- 假设性情景法（Hypothetical Vignettes）：在不同假设情景下测量受试者的预测或偏好，如联合实验（conjoint experiments）。
基准（Benchmarks）的使用：尽可能选择有客观外部基准的信念对象（如移民占人口比例），这样可以刻画信念偏误的大小，也为信息干预的设计提供锚点。
激励措施：在政治性议题中，准确性激励可减少党派偏见；在非政治性议题中，激励对报告信念影响有限。推荐使用二值化评分规则（BSR），因其不依赖风险偏好。
测量误差处理：建议同时用定性、定量、概率三种方式测量同一信念，利用多重测量的工具变量（IV）方法（Gillen, Snowberg, and Yariv 2019）处理经典测量误差。

第二步：设计信息干预（Designing the Information Intervention）

信息类型：
- 定量统计信息：基于官方数据或专家预测的统计数字，便于理论解释和学习率计算。
- 轶事/故事/叙事：定性案例信息，更贴近现实但难以精确量化效果。
- 概率信息干预（Probabilistic Information Treatments）：告知受试者"以概率 p 得知真实事实"，可直接与贝叶斯基准比较。
个性化 vs. 通用信息：个性化信息（如基于个人特征的收益预测）更有针对性，通用信息（如全国统计数据）适用面更广。
信息来源：
- 官方统计数据、研究证据、专家预测、社会规范信息、新闻文章/政策声明。
- 需考虑信源可信度对不同人群的差异影响（如种族一致性效应）。
信息呈现：
- 应简短、中性地呈现，最大化理解、最小化需求效应。
- 可辅以图形化展示（如将先验信念与信息值的对比可视化）。
生成信念一阶段效应：如果目标是最大化信念变化的一阶段效应，所提供的信息需与受试者先验信念有足够差距；但如果差距太大，可能损害信息可信度。

第三步：测量信念更新（Measuring Belief Updating）

后验信念测量：在信息提供后再次测量信念（posterior beliefs），可以与先验比较以衡量更新幅度。
学习率计算：核心回归模型为：
$Updating_i = \beta_0 + \beta_1 Treatment_i \cdot Perc.gap_i + \beta_2 Treatment_i + \beta_3 Perc.gap_i + \varepsilon_i$
- $Updating_i$ ：后验信念与先验信念之差。
- $Perc.gap_i$ ：真实信号与受试者先验信念之差（感知差距）。
- $\beta_1$ ：核心兴趣系数，衡量处理组受试者向信号方向更新的程度（学习率），在贝叶斯正态更新下可解释为受试者对信号 vs. 先验的权重。
- $\beta_2$ ：不依赖于个体先验的平均处理效应。
- $\beta_3$ ：控制组中信念变化对感知差距的依赖程度（必须控制，因即使未接受信息的人也可能在二次回答时修正信念）。
数值锚定问题（Numerical Anchoring）：后验信念可能被信息中的数字无意识锚定。缓解方法包括：(a) 提供无关数字锚并检验其效果；(b) 在不同量表上测量信念；(c) 同时使用定性量表。
追踪调查（Follow-Up Surveys）：通常在信息提供后数周到数月开展，用于测量信念和行为效应的持续性。典型学习率在追踪中约为即时学习率的30%-70%。
测量对信息的信念：应在实验中直接询问受试者是否信任所提供的信息、对信息的看法。
交叉学习（Cross-Learning）：信息干预不仅改变目标信念，也可能改变其他相关变量的信念。研究者应测量其他可能受影响的信念，并注意交叉学习对IV估计的影响。

第四步：处理实验者需求效应（Dealing with Experimenter Demand Effects）

文章提出了一系列最佳实践：

混淆式追踪调查（Obfuscated Follow-Ups）：将追踪调查伪装为独立研究（不同知情同意书、不同调研公司发送邀请、先问无关问题）。
匿名性：利用匿名在线签名、列表实验（list methods）等掩饰个体真实偏好。
激励化结果（Incentivized Outcomes）：测量有真实金钱后果的行为（如向政治组织捐款），降低需求效应。
田野行为结果（Field Outcomes）：链接行政数据或自然行为数据（如工作申请接受率、房屋销售、投票行为），因参与者不知自己在实验中，需求效应为零。
中性框架（Neutral Framing）：采用中性实验说明，降低受试者对实验目的的推测。
混淆信息干预（Obfuscated Information Treatments）：让受试者在不知情的情况下接收信息（如要求校对一段文字）。
需求处理（Demand Treatments）：明确告知受试者"我们预期看到某种行为"，以此测试需求效应的边界。
测量对实验目的的信念：使用开放式文本题询问受试者对研究目的的理解，用机器学习分类器预测处理状态。
自我监控量表（Self-Monitoring Scale）：如果需求效应驱动行为，则高自我监控者应表现出更强的处理效应——但实证通常未发现此模式。

第五步：样本选择与质量控制

样本类型：
- 概率抽样面板（如AmeriSpeak，最具代表性但成本高）。
- 代表性在线面板（如Dynata、Lucid、YouGov，按可观测特征匹配总体）。
- 在线劳动力市场（如MTurk，速度快、灵活但代表性低、数据质量下降）。
注意力检测：推荐使用多个注意力检查题（attention checks），但需向受试者解释为何设置这些检查。
开放式防机器人题：至少设置两道开放式题以识别机器人和低质量回答者。
典型样本量建议：至少每个处理组700人，以80%的统计功效检测0.15个标准差的处理效应。若含追踪调查（假设30%流失），初始样本应增至每组约1000人。

其他要素

应用领域覆盖：公共经济学、政治经济学、宏观经济学、家庭金融、劳动与教育经济学、健康经济学。
主动控制组 vs. 纯控制组：
- 纯控制组（Passive Control）：不接受任何信息，便于解释先验与结果变量的相关性，也适用于评估"提供信息vs.不提供信息"的政策效果。
- 主动控制组（Active Control）：接受不同内容的信息，可在更广泛人群中识别因果效应，减少启动效应的担忧。由Bottan and Perez-Truglia (2022)开创。

维度2：理论模型

基准理论框架

本文的理论基础是标准经济学中的选择三因素模型：偏好（Preferences）、约束（Constraints）、信念（Beliefs）。信息通过改变信念间接影响选择行为。信息提供实验通过随机化信息集（information set），在仅改变选择环境一个维度的条件下提供因果识别。

核心公式：学习率回归方程

Updating_i = \beta_0 + \beta_1 Treatment_i \cdot Perc.gap_i + \beta_2 Treatment_i + \beta_3 Perc.gap_i + \varepsilon_i

在贝叶斯正态更新框架下（先验和信号均服从正态分布、独立、二次损失函数）， $\beta_1$ 可解释为受试者对信号的权重， $(1 - \beta_1)$ 为对先验的权重。此系数提供了衡量信息吸收程度的结构性度量。

行为弹性（Behavioral Elasticities）

采用两阶段最小二乘法（2SLS），用随机信息干预作为内生信念的工具变量，可以估计信念对行为的因果效应。例如：

Bottan and Perez-Truglia (2020)：房价预期每增加1个百分点，6个月内出售概率降低2.5个百分点。
Roth and Wohlfart (2020)：感知衰退可能性每增加10个百分点，计划消费增长减少0.13个标准差。

"行为弹性"定义为将结果变量的对数对由处理赋值作为工具变量的后验信念对数进行回归。

关键假设

信息干预的随机分配保证了处理效应的因果识别。
贝叶斯更新假设下，学习率 $\beta_1$ 反映先验精度与信号精度的相对权重。
IV估计的排除性约束要求信息仅通过改变目标信念影响行为——交叉学习可能违反此条件。

维度3：核心发现

关于学习率的发现

典型的即时学习率在 0.18 至 0.87 之间（Table 1汇总了11项研究）。
宏观经济预期类实验的学习率集中在 0.3-0.5 区间。
追踪调查中的学习率通常为即时学习率的 30%-70%，表明信息效应具有中等持续性，但随时间衰减。

关于信念 vs. 行为效应的发现

信息对信念更新的效应量通常大于对行为和偏好的效应量。
偏好和行为结果上出现零效应（null findings）并不罕见，即使信念已发生显著变化。
不同领域信念对行为的弹性差异极大，难以给出通用的最优样本量建议。

关键方法论建议（Best Practices）

测量先验信念：强烈建议在信息提供前测量先验信念，以便估计异质性处理效应、计算学习率、增加统计功效。
信念测量方式：尽可能同时使用定性、定量、概率三种方式，利用IV方法处理测量误差。
概率信念激励：推荐使用BSR（二值化评分规则），因其不依赖风险偏好。
信息呈现：简短、中性、辅以图形，最大化理解度。
控制组设计：根据研究问题选择主动或被动控制组，主动控制组在因果推断上有诸多优势。
需求效应缓解：综合使用混淆式追踪、匿名性、激励化结果、田野行为数据、中性框架等多种手段。
样本量：每个处理组至少700人（无追踪）或1000人（含追踪，假设30%流失），以80%功效检测0.15个标准差的效应。
注意力检测：在线调查中设置多个注意力检查题和开放式题。

对未来研究的建议

系统性地研究哪些因素决定信息在改变信念方面的有效性（先验强度、信息复杂度、处理信息的经验等）。
深入理解为何信念变化在某些领域能引发行为变化而在其他领域不能。
注意力和记忆在信息处理中的角色值得进一步研究。
设计信息实验以允许对信念与行为之间弹性的结构性解释。

维度6：与其他文献的关系

论文在文献中的位置

本文是信息提供实验方法论的权威综述，发表于 Journal of Economic Literature（经济学领域最具影响力的综述期刊），是该方法第一篇系统性的方法论指南。

与相关文献的关系

与 Stantcheva (2023) 的关系：Stantcheva的综述聚焦于社会经济调查的总体设计，本文则专门针对信息提供实验的设计细节，两者互补。
贝叶斯更新文献：本文为信念更新实验提供了与贝叶斯基准比较的标准化框架（学习率回归），与 Mobius et al. (2022)、Zimmermann (2020) 等关于动机性信念更新的实证研究形成方法论对话。
实验者需求效应文献：系统整合了 de Quidt, Haushofer, and Roth (2018)、Mummolo and Peterson (2019) 等关于需求效应的实证证据，并提出了混淆式追踪等创新方法。
测量误差文献：将 Gillen, Snowberg, and Yariv (2019) 的IV方法引入信念测量语境。

核心引用网络

宏观经济预期：Coibion, Gorodnichenko, and Weber 系列论文；Roth and Wohlfart (2020)；Armantier et al. (2016)
政治经济学：Alesina, Stantcheva, and Teso (2018)；Kuziemko et al. (2015)；Haaland and Roth (2020, 2023)
家庭金融：Bottan and Perez-Truglia (2020, 2022)；Fuster et al. (2022)
劳动经济学：Jensen (2010)；Wiswall and Zafar (2015, 2018, 2021)
健康经济学：Dupas (2011)；Nyhan and Reifler (2015)

维度4：变量概览

由于本文为方法论综述，以下变量属于综述所推荐的标准实验设计要素：

关键自变量（处理变量）：

$Treatment_i$ ：实验处理虚拟变量（是否接收信息）
$Perc.gap_i$ ：感知差距 = 真实信号 - 受试者先验信念

关键因变量：

$Updating_i$ ：后验信念 - 先验信念
行为结果：如消费/投资计划、捐款、政策态度、田野行为（房屋销售、求职接受率、投票）

关键中介/调节变量：

先验信念精度（prior precision）
信息可信度感知
自我监控特质（self-monitoring scale）
政治倾向、人口学特征

关键参数：

学习率 $\beta_1$ ：贝叶斯框架下信号权重，典型值0.18-0.87
行为弹性：后验信念对数对结果对数的弹性
持续性比率：追踪学习率/即时学习率，典型30-70%

核心方法论变量：

需求效应敏感性：通过demand treatment、自我监控量表测量
注意力：通过attention checks测量
跨学习强度：信息对非目标信念的溢出效应

维度5：局限性

综述本身的局限：作为方法论综述而非元分析，缺乏对各方法学效果的定量比较与权威排名。
学习率比较的可比性受限：不同研究中先验信念的测量方式、信息干预的内容差异巨大，跨研究的学习率数值比较仅供参考。
行为弹性的异质性：行为弹性在不同领域差异极大，使得本文难以提供通用的最优样本量建议（需研究者根据领域具体情况判断）。
需求效应缓解工具的有效性证据有限：许多缓解手段（如自我监控量表、demand treatment）在实证中未发现需求效应的强证据，但这究竟是因为需求效应不存在还是这些工具本身缺乏检测力，难以判断。
田野结果的可获得性受限：链接行政数据或田野行为虽是金标准，但实际操作中面临数据访问、伦理审查、样本规模等多重障碍。
概率信念的测量挑战：要求受试者报告概率分布对低教育、低数学素养群体认知负担大，可能引入新的偏误。
持续性测量的样本流失：追踪调查面临系统性流失（典型30%），可能导致非随机选择性偏误。
跨学习与排除性约束：信息干预可能影响多个信念，违反IV的排除性约束，但目前文献对此问题的处理仍不充分。
覆盖领域的不均衡：综述覆盖的领域虽广但深度不一，金融信念、消费金融领域的处理相对宏观经济和政治经济学单薄。
对在线实验质量下降的应对有限：MTurk等平台数据质量近年下降，本文虽提及但未提供系统性的质量保障方案。

维度7：可拓展的研究方向

元分析整合：对现有信息提供实验进行系统性元分析，定量评估不同设计选择对效应大小、学习率、持续性的影响。
学习率的决定因素：系统研究先验强度、信息复杂度、信息可信度、受试者认知能力如何决定学习率，建立可预测的结构性模型。
信念→行为弹性的差异性：研究为什么某些领域信念变化能引发行为变化（如健康），而其他领域不能（如气候政策态度），可结合内在偏好、约束、心理障碍等机制。
注意力与记忆的角色：将认知有限性（rational inattention、associative memory）整合进信息实验，研究信息处理的微观机制。
新型信息媒介：研究AI对话、视频、社交媒体形式信息相对传统统计文本的有效性差异，与LLM agent结合（参考 Hashimoto_Takayanagi_2026_LLMAgents_HumanBias_MarketDynamics）。
动态信息提供：研究多次、序列性信息提供 vs. 单次提供的效果差异，刻画信念更新的动态路径。
结构性估计：将信息实验数据用于结构性估计经济模型（如学习模型、投资模型），实现"实验+结构估计"双重身份识别（参考 Bellemare_2023_StructuralModels_ExperimentalData）。
跨文化比较：在非WEIRD样本中复制信息实验，检验方法学和结论的外部效度。
金融素养与信念精度交互：信息干预对金融素养较低人群可能产生不同效果（如更易锚定、更易需求效应），值得专门研究。
政策实施场景：从实验室/在线实验扩展到实际政策实施场景，与政府或企业合作进行大规模信息提供干预的实地实验。

关键结论

信息提供实验是识别信念因果效应的金标准方法：通过随机化信息集，可以在仅改变一个选择维度的条件下识别信念→行为的因果效应。但其有效性高度依赖于实验设计细节——先验信念测量、信息呈现、需求效应控制等环节的任何瑕疵都可能损害推断效度。
测量先验信念是关键起点：在信息提供前测量先验信念能够大幅提升统计功效、识别异质性处理效应、计算学习率，是本文最强烈的方法论建议。同时使用定性、定量、概率三种测量方式可缓解经典测量误差。
需求效应是主要威胁但可缓解：实验者需求效应是信息提供实验的核心威胁，但通过混淆式追踪、激励化结果、田野行为数据、中性框架等多种手段的组合使用，可显著降低其影响。已有证据表明设计良好的信息实验中需求效应通常较小。
学习率呈现规律性模式：典型即时学习率0.18-0.87，宏观经济类集中在0.3-0.5，追踪中学习率衰减至30-70%。信息对信念的效应通常大于对行为的效应，零行为效应不罕见。
样本量与功效需重视：每处理组700-1000人是基本要求；含追踪调查时需考虑流失。研究者应根据具体领域的行为弹性进行功效分析。

Haaland_Roth_2023_DesigningInformationExperiments