Stantcheva_2023_HowToRunSurveys
Stantcheva (2023) - How to Run Surveys: A Guide to Creating Your Own Identifying Variation and Revealing the Invisible
基本信息
- 作者: Stefanie Stantcheva (Harvard University, NBER, CEPR)
- 期刊: Annual Review of Economics, 15:205-234
- 发表时间: 2023
- DOI: https://doi.org/10.1146/annurev-economics-091622-010157
- JEL: C8, C9, A22, A23, D7, P16
- 关键词: surveys, experiments, priming, information, beliefs, perceptions, sampling
- 论文类型: 方法论综述 (Methodological Review)
一句话总结
为经济学家撰写的端到端调查方法论指南,将调查重新定义为"研究者创造自有识别变异(identifying variation)"的过程,覆盖样本设计、招募、偏差处理、实验设计(启动/信息/因子)、流失校正和后续追踪等全流程,并系统整合应对各类回应偏差和实验者需求效应的最佳实践。
研究问题
- 经济学家如何严谨地设计、实施和分析调查与调查实验,以从主观感知/信念/偏好中提取因果证据?
- 在线调查面临哪些独特的选择偏差、回应偏差和实验者需求效应?有哪些可操作的应对策略?
- 调查实验的不同设计(后测、前测、准前测、被试内)以及不同干预类型(启动、信息、因子/联合分析)各自的优势、权衡与最佳实践是什么?
- 如何区分启动(priming)与信息更新(updating)这两种本质不同的实验机制?
核心贡献
- 统一框架:首次以单篇经济学综述形式整合调查全流程(设计→抽样→招募→实施→偏差处理→实验→分析→后续追踪),填补了经济学领域缺乏系统调查方法论的空白
- 经济学视角的调查观:将调查从"被动数据收集"重新定位为"主动创造识别变异"的研究范式,与传统准实验方法互补
- 偏差分类学:系统梳理五大类回应偏差(温和/极端/顺序偏差、问题顺序效应、社会期望偏差SDB、默许偏差、实验者需求效应EDE)及其针对性解决方案
- 实验类型分类(Table 1):清晰区分四种实验设计(Posttest/Prepost/Quasi-prepost/Within)的统计功效与权衡
- 干预机制区分:明确启动(accessibility + applicability)vs. 信息更新的本质差异,指引研究者选择正确干预类型并测量其持续性
- 实操指南:每环节均提供具体可执行建议(登陆页设计、注意力检查、模糊化干预、AMCE识别等),显著降低新手设计调查的门槛
维度1:实验设计分析
方法论框架:完整调查流程指南
本文是一篇方法论综述,系统性地指导研究者如何设计、实施和分析经济学调查与调查实验。以下按其推荐的完整流程逐步还原。
第一阶段:前期准备与研究设计
- 明确研究问题:没有绝对好或坏的调查,只有是否适合研究问题的调查。设计问题时必须时刻想好如何分析数据。
- 创造自己的识别变异(identifying variation):调查问题设计的核心理念是保持"其他条件不变"(ceteris paribus),每个问题只改变一个因素,其余保持恒定。这是调查区别于普通数据收集的关键特征。
第二阶段:样本设计(Section 2)
- 选择样本类型:
- 全国代表性面板(如 Knowledge Panel、AmeriSpeak、Understanding America Study)
- 商业调查公司配额抽样面板(如 Qualtrics、Dynata、Prolific Academic)
- 商业调查市场平台(如 Lucid)
- 便利样本(如大学生、会议参与者)
- 在线工作平台(如 Amazon MTurk)
- 定向群体(如专家、企业员工)
- 政府/机构调查(如丹麦统计局、消费者预期调查)
- "范围抽样"(sampling for range):样本应在概念上重要的变量上有意多样化(Small 2009)。
第三阶段:处理调查误差与选择偏差(Section 2.2)
- 理解调查误差的四阶段流程(Figure 1):
- 目标人群 --> 抽样框/潜在受访者池(覆盖误差 coverage error)
- 抽样框 --> 计划样本(抽样误差 sampling error)
- 计划样本 --> 实际受访者/实际样本(无回应误差 nonresponse error)
- 区分单元无回应偏差与项目无回应偏差:前者是未开始调查,后者是部分问题缺失。流失(attrition)是项目无回应的特殊情况。
- 在线样本特征:倾向于偏高教育水平、白人和非西班牙裔,来自大城市的受访者被过度代表,中小城市和农村地区被低估。
第四阶段:招募受访者(Section 2.3)
- 调查登陆页设计要点:
- 降低感知成本:注明(理想中较短的)调查时长
- 使用简单语言和友好视觉设计,确保移动设备可读
- 不要透露太多关于调查者身份的信息(权衡合法性与选择偏差)
- 显得正式可信:提供联系方式、数据使用说明、隐私保证
- 提供有限的研究目的信息,避免透露实际研究主题以防选择偏差
- 说明调查对研究和受访者的可能益处
- 警告低质量回答可能被标记
- 其他招募要素:撰写个性化邀请邮件、发送提醒、验证受访者身份(CAPTCHAs、开放式问题)、管理激励和奖励、设置配额筛选。
第五阶段:管理调查实施(Section 2.4)
- 软启动(soft launch):在全面启动前先小规模测试完整调查,检测技术问题。
- 实时监控:关注退出率、配额进度、技术问题;定期查看邮箱反馈。
- 数据实时检查:从最早的回复开始验证数据有效性,发现误解或错误。
第六阶段:处理流失(Section 2.5)
- 报告流失:明确定义流失率,报告流失在调查各关键阶段的分布,分析流失与受访者特征的相关性。
- 预防流失:流畅的用户体验、清晰的视觉设计、简短调查、多种奖励形式、避免过多注意力检查和复杂问题。
- 纠正无回应偏差的方法:
- 重新加权(reweighting)
- 直接建模选择(modeling selection)
- 效应边界估计(bounding effects)
- 缺失数据插补(imputing missing data)
第七阶段:应对回应偏差(Section 3)
-
与答案选项相关的偏差(Section 3.1):
- 温和性偏差(moderacy response bias):倾向选择中间选项
- 极端回应偏差(extreme response bias):倾向选择极端值
- 回应顺序偏差(response order bias):首因效应(primacy,选第一个)和近因效应(recency,选最后一个)
- 解决方案:定制化量表、避免三点量表、随机化回应选项顺序、使用强制选择格式、构建极端回应指数(ERS index)、项目反应理论(IRT)模型、多组验证性因子分析(CFA)、潜在类别因子分析(LCFA)
-
问题顺序效应(Section 3.2):
- 认知型:启动效应(priming)、延续效应(carryover)、锚定效应(anchoring)
- 规范型:公平感驱动的调整
- 解决方案:随机化问题/问题块顺序、视觉上分离相关问题
-
社会期望偏差 SDB(Section 3.3):
- 在线调查因匿名性天然减少SDB
- 控制调查者身份、匿名水平、问题用途的知晓度
- 在敏感问题前重申匿名性
-
默许偏差 Acquiescence Bias(Section 3.4):
- 避免"同意-不同意"格式,使用具体的、针对项目的量表
- 平衡正面和负面选项
- 随机化问题正反表述
-
实验者需求效应 EDE(Section 3.5):
- 匿名性、货币激励与真实利益问题
- 模糊化后续追踪(obfuscated follow-ups)
- 模糊化信息干预(obfuscated information treatments)
- 中性和平衡的措辞
- 隐藏实验目的,使用多模块多角度设计
第八阶段:调查实验设计(Section 4)
-
实验设计类型(Table 1,基于 Clifford et al. 2021):
- 后测设计(Posttest):处理组和对照组,仅在干预后测量因变量
- 前测设计(Prepost):干预前后均测量因变量
- 准前测设计(Quasi-prepost):干预前测量相关(但不同)变量,干预后测量因变量
- 被试内设计(Within):所有受访者均接受干预,但在不同时间点,两次测量因变量
-
第一阶段变量 vs 第二阶段变量:
- 第一阶段:干预直接试图改变的信念/信息/知识
- 第二阶段:受第一阶段变量影响的下游变量(如政策偏好)
- 建议:总是测量后验的第一阶段变量;前测可增加异质性分析和统计功效
-
启动实验(Priming Treatments, Section 4.2):
- 机制:改变某概念的相对权重/显著性(accessibility + applicability)
- 类型:倾向性问题、问题顺序随机化、不同内涵的词语/名字、配图变化、图像启动、视频启动
- 启动不应导致学习或信念更新
-
信息与教学干预(Section 4.3):
- 类型:定量信息、定性信息、轶事/故事/叙事
- 形式:文本、图像、音频、视频、互动练习
- 额外维度:信息来源、个性化、信息可信度
- 方法论要点:干预应简短、高质量视觉呈现、中性措辞、注意干预时长与耐心的权衡
- 确保产生"更新"(updating)而非仅仅"启动"(priming)
- 使用理解检查题(comprehension checks)
- 主动 vs 被动对照组:主动对照组接收不同信息,可能更好地匹配注意力和情绪效应
-
因子实验:小品文(Vignette)与联合分析(Conjoint)设计(Section 4.4):
- 小品文:短描述/故事,沿关键因素变化
- 联合分析:表格式呈现属性及水平
- 优势:可同时测试多因素、乘法式交互、高统计功效
- 挑战:外部效度、认知过载、需避免不合理组合
- 因果识别:平均边际成分效应(AMCE)
- 实践建议:避免不合理组合、控制认知负荷、D-最优设计、随机化属性顺序、被试内设计优于纯被试间设计
-
后续追踪与持续性(Section 4.5):
- 启动效应可能很快消散,信息/教学干预更可能持续
- 通过后续调查评估持续性(不重新施加干预)
- 注意:再联系率因平台不同差异大,需提高激励和缩短追踪调查
实验类型
方法论综述,涵盖调查设计与调查实验全流程
核心方法论贡献
- 将调查从"数据收集工具"提升为"创造自有识别变异的研究过程"
- 提供从抽样到分析的端到端实操指南
- 系统整合了应对各类偏差(SDB、EDE、默许偏差、顺序效应等)的最佳实践
- 清晰分类四种实验设计类型及其权衡
- 区分第一阶段变量和第二阶段变量的测量策略
亮点
- 实操性极强:每个环节都提供具体的、可执行的建议
- 大量跨领域案例:引用经济学、政治学、心理学的调查实践
- Figure 1 的四阶段误差模型清晰直观
- Table 1 的实验设计分类框架高度实用
- 对在线调查的选择偏差特征有详细描述
- 强调调查登陆页设计的微妙权衡(合法性 vs 选择偏差)
局限
- 主要聚焦在线书面调查,对电话、面对面调查的特殊性讨论较少
- 未深入讨论统计功效分析和样本量计算
- 对发展中国家在线调查的代表性问题仅简要提及
- 部分具体操作细节(如问题措辞最佳实践)放在补充附录中,正文未展开
维度2:理论模型
基准理论框架
本文不是理论驱动的论文,而是方法论指南。但其隐含的核心理论立场是:
-
调查作为识别策略:调查不仅是收集数据的工具,而是研究者创造自己的控制变异和识别变异的过程。这与传统观测数据的"自然实验"范式互补。
-
信息等价性问题(Information Equivalence, Dafoe et al. 2018):调查实验中,不同受访者可能对相同的实验干预产生不同的信息解读,导致他们实际上接受了不同的"处理"。这类似于工具变量中的排除限制条件。
-
启动的理论机制(Cohn & Marechal 2016; Bargh & Chartrand 2014):
- 可及性(accessibility):使某些特征在记忆中更易被激活用于判断任务
- 适用性(applicability):呈现的刺激或存储的知识被感知为可应用于另一个情境的程度
- 区分概念启动(conceptual priming)和心态启动(mindset priming)
-
因子实验的因果识别:
- 平均边际成分效应(AMCE, Hainmueller et al. 2014):改变一个属性的因果效应,同时对其余属性分布取平均。AMCE 关键依赖于用于平均的属性分布选择。
关键公式/方法
- 极端回应加总指数(ERS index, Johnson et al. 2005):对每个可能受偏差影响的变量,若答案为极端值则编码为1,否则为0,然后对所有变量求和,作为分析中的控制变量。
- 重新加权(reweighting):根据人口特征调整样本权重以纠正选择偏差
- ANOVA / 多层建模:分析小品文实验结果(Steiner et al. 2017)
核心假设/前提
- 受访者的回答能有意义地反映其真实感知、信念和态度(在适当控制偏差后)
- 随机化可以识别调查实验中的因果效应
- 在线调查中的匿名性能有效减轻社会期望偏差
可检验预测(隐含)
- 提供更多关于调查者身份的信息会增加选择偏差
- 被试内设计比被试间设计需要更小的样本量达到同等统计功效
- 信息干预的效果比启动干预更持久
- 主动对照组与被动对照组会产生不同的处理效应估计
维度3:核心发现
本文为方法论综述,不报告具体的实证 effect size。其核心发现/结论为系统性的方法论建议:
关于样本与选择
- 在线样本在美国可覆盖$25,000-$100,000收入区间,但无法触及收入分布两端
- 不同研究中流失率通常在15%-30%之间,取决于平台和调查时长
- 女性、年轻人、低收入和低教育水平受访者更易流失,但流失率差异不大(Dechezlepretre et al. 2022跨20国研究)
- 将调查数据与行政数据匹配的研究(如丹麦统计局)显示样本与目标人群几乎一致
关于偏差
- 在线调查因匿名性天然减轻社会期望偏差
- 流失与处理组的相关性可能引入处理效应估计的偏差
- 启动效应通常短暂,不太可能持续;信息/教学干预更可能产生持久效果
关于实验设计
- 配对设计在预测真实投票行为方面优于单一小品文/联合设计(Hainmueller et al. 2015)
- 配对设计可能促进更高的参与度、沉浸感,并减少满足化行为
- MTurk上联合分析任务数量不超过30个时回答质量不下降(Bansak et al. 2018)
稳健性建议
- 报告原始结果与校正后结果的对比
- 与基准调查(如已有高质量代表性调查)的答案进行比较验证
- 检验结果对多种无回应偏差校正方法的稳健性
维度6:与其他文献的关系
领域位置
本文发表于 Annual Review of Economics,定位为经济学调查方法论的权威指南。它填补了一个重要空白:虽然调查方法在社会科学中被广泛使用,但缺乏一篇从经济学视角出发、覆盖全流程的系统性指南。
核心对话论文
- 调查设计经典教材: Dillman et al. (2014) Internet, Phone, Mail, and Mixed-Mode Surveys: The Tailored Design Method -- 本文大量借鉴并改编其建议使之更适合经济学调查
- Pew Research Center (2022) -- 问题撰写最佳实践
- Krosnick (1999) Survey Research (Annual Review of Psychology) -- 心理学视角的调查方法论
- Haaland, Roth & Wohlfart (2020) Designing Information Provision Experiments -- 信息干预实验设计指南
- Haaland & Roth (2020, 2023) -- 模糊化后续追踪方法
- Hainmueller et al. (2014, 2015) -- 联合分析方法论与外部效度验证
- Dafoe, Zhang & Caughey (2018) -- 信息等价性问题
- Clifford, Sheagley & Piston (2021) -- 实验设计类型分类(Table 1的来源)
- Cohn & Marechal (2016) -- 经济学中的启动效应综述
- Bargh & Chartrand (2014) -- 心理学中的启动效应综述
作者自身系列调查研究(作为案例贯穿全文)
- Stantcheva (2021) -- 税收政策认知调查
- Stantcheva (2022) -- 贸易政策调查
- Alesina, Stantcheva et al. (2018, 2023) -- 代际流动、移民认知调查
- Hvidberg, Kreiner & Stantcheva (2021) -- 丹麦收入分配认知调查
- Kuziemko et al. (2015) -- 再分配偏好调查实验
- Dechezlepretre et al. (2022) -- 气候政策态度跨国调查
新贡献
- 统一框架:首次将调查流程从头到尾(设计-抽样-招募-实施-偏差处理-实验-分析)整合在一篇经济学综述中
- 经济学视角的调查观:强调调查是"创造自有识别变异"的研究过程,而非仅仅收集数据
- 偏差分类学:系统梳理五大类回应偏差(温和性/极端/顺序偏差、问题顺序效应、SDB、默许偏差、EDE)及其解决方案
- 实验类型分类:将调查实验分为启动、信息/教学、因子实验三大类,并详述各自的方法论要点
- 实用性:大量具体建议可直接应用于研究实践,降低了新手设计调查的门槛
维度4:变量概览
由于本文为方法论综述而非实证研究,不存在传统意义上的因变量/自变量。但作者明确区分以下方法论概念:
第一阶段变量(First-stage variables):
- 干预直接试图改变的对象:信念、信息知识、感知概率、注意力分配等
- 测量时机:干预后必测;前测可选(提升异质性分析能力与统计功效)
- 例:税收信息干预后对税率认知的更新
第二阶段变量(Second-stage variables):
- 受第一阶段变量影响的下游决策/态度变量
- 例:政策偏好、投票意向、行为意图
关键诊断变量:
- 单元无回应(unit nonresponse)vs. 项目无回应(item nonresponse)vs. 流失(attrition)
- 极端回应指数(ERS index, Johnson et al. 2005):每变量取极端值=1,加总作为偏差控制
- 注意力检查通过率
- 理解检查(comprehension checks)正确率
- 完成时间(completion time)
核心识别参数:
- ATE(Average Treatment Effect):信息/启动干预的平均处理效应
- AMCE(Average Marginal Component Effect, Hainmueller et al. 2014):联合分析中单一属性的因果效应
调查质量指标:
- 覆盖误差、抽样误差、无回应误差、测量误差(Figure 1四阶段误差链)
- 流失率(典型 15%–30%)、再联系率、对人口分布的偏离度
维度5:局限性
- 聚焦在线书面调查:电话、面对面、混合模式调查的特殊方法学问题(如访问员效应)讨论较少
- 统计功效分析浅:未深入讨论调查实验的样本量计算、最小可检测效应(MDE)、多重检验校正
- 发展中国家代表性问题:在线调查在低互联网渗透率国家的偏差仅简要提及,缺乏系统应对方案
- 数据分析方法略:分析阶段(异质性分析、机器学习子组识别、IV with surveys)只点到即止
- 行政数据匹配:将调查与行政数据链接的方法、隐私和伦理考虑未充分展开
- AI辅助调查未涵盖:发表时点(2023年初)较早,未涉及LLM作为调查工具/受访者模拟器的最新发展
- 正文-附录权衡:部分关键操作细节(如问题措辞最佳实践、特定平台对比)置于补充附录,正文未展开
维度7:可拓展的研究方向
- LLM辅助调查设计与代理回答:用LLM生成问题措辞变体、模拟受访者群体回应、检测潜在偏差;研究"硅样本(silicon samples)"作为先导测试工具的有效性
- 调查与行政数据整合:拓展丹麦/北欧模式,研究在隐私保护下将调查信念数据与税务/医疗/金融账户数据匹配的方法学
- 持续性追踪:系统比较启动与信息干预效应衰减的时间常数,建立"信念更新半衰期"的实证基准
- 跨文化测量等价性:研究信念引出问题在不同文化间的可比性,扩展 Falk et al. (2018) 全球偏好调查的方法学基础
- 金融决策中的应用:将调查实验工具应用于金融素养、投资信念、ESG偏好等场景,对接 Giglio_2021_FiveFacts_BeliefsPortfolios、Bauer_2025_Sustainability_Preferences_Index_Fund
- 信息干预实验的元分析:系统综合 Haaland_Roth_2023_DesigningInformationExperiments 框架下的信息实验,量化主动 vs. 被动对照组的偏差差异
- 激励性 vs. 假设性信念引出对比:与实验经济学的激励信念引出(如 BDM、Karni、QSR)对接,量化两者偏差差异
- 社会期望偏差的神经/生理基础:用皮电、眼动、fMRI 等生理指标识别 SDB,开发"客观真诚度"补偿指标
- AI访问员:研究AI对话式调查(如GPT驱动的开放式访谈)相比传统问卷的偏差结构差异
标签
#方法论 #调查设计 #调查实验 #启动效应 #信息干预 #联合分析 #小品文实验 #回应偏差 #社会期望偏差 #实验者需求效应 #在线调查 #抽样 #流失 #Stantcheva #AnnualReviewEconomics #2023
关键结论
- 调查是研究者主动创造识别变异的研究过程:精心设计的问题(保持其他条件不变、每问只变一因素)和调查实验(启动/信息/因子)能从主观感知和信念中提取因果证据,是观测准实验范式的有力补充而非替代
- 应对偏差需要全流程组合策略:从抽样阶段(样本范围多样化、配额校准)、招募阶段(登陆页设计平衡合法性与选择偏差)、问题设计阶段(随机化顺序、强制选择、平衡正反措辞)、到分析阶段(重新加权、效应边界、ERS指数控制),每个环节都需要针对特定偏差源(SDB、EDE、默许、温和性等)部署对应应对工具,单点优化不足以保证因果识别有效性