Stantcheva (2023) - How to Run Surveys: A Guide to Creating Your Own Identifying Variation and Revealing the Invisible

基本信息

作者: Stefanie Stantcheva (Harvard University, NBER, CEPR)
期刊: Annual Review of Economics, 15:205-234
发表时间: 2023
DOI: https://doi.org/10.1146/annurev-economics-091622-010157
JEL: C8, C9, A22, A23, D7, P16
关键词: surveys, experiments, priming, information, beliefs, perceptions, sampling
论文类型: 方法论综述 (Methodological Review)

一句话总结

为经济学家撰写的端到端调查方法论指南，将调查重新定义为"研究者创造自有识别变异（identifying variation）"的过程，覆盖样本设计、招募、偏差处理、实验设计（启动/信息/因子）、流失校正和后续追踪等全流程，并系统整合应对各类回应偏差和实验者需求效应的最佳实践。

研究问题

经济学家如何严谨地设计、实施和分析调查与调查实验，以从主观感知/信念/偏好中提取因果证据？
在线调查面临哪些独特的选择偏差、回应偏差和实验者需求效应？有哪些可操作的应对策略？
调查实验的不同设计（后测、前测、准前测、被试内）以及不同干预类型（启动、信息、因子/联合分析）各自的优势、权衡与最佳实践是什么？
如何区分启动（priming）与信息更新（updating）这两种本质不同的实验机制？

核心贡献

统一框架：首次以单篇经济学综述形式整合调查全流程（设计→抽样→招募→实施→偏差处理→实验→分析→后续追踪），填补了经济学领域缺乏系统调查方法论的空白
经济学视角的调查观：将调查从"被动数据收集"重新定位为"主动创造识别变异"的研究范式，与传统准实验方法互补
偏差分类学：系统梳理五大类回应偏差（温和/极端/顺序偏差、问题顺序效应、社会期望偏差SDB、默许偏差、实验者需求效应EDE）及其针对性解决方案
实验类型分类（Table 1）：清晰区分四种实验设计（Posttest/Prepost/Quasi-prepost/Within）的统计功效与权衡
干预机制区分：明确启动（accessibility + applicability）vs. 信息更新的本质差异，指引研究者选择正确干预类型并测量其持续性
实操指南：每环节均提供具体可执行建议（登陆页设计、注意力检查、模糊化干预、AMCE识别等），显著降低新手设计调查的门槛

维度1：实验设计分析

方法论框架：完整调查流程指南

本文是一篇方法论综述，系统性地指导研究者如何设计、实施和分析经济学调查与调查实验。以下按其推荐的完整流程逐步还原。

第一阶段：前期准备与研究设计

明确研究问题：没有绝对好或坏的调查，只有是否适合研究问题的调查。设计问题时必须时刻想好如何分析数据。
创造自己的识别变异（identifying variation）：调查问题设计的核心理念是保持"其他条件不变"（ceteris paribus），每个问题只改变一个因素，其余保持恒定。这是调查区别于普通数据收集的关键特征。

第二阶段：样本设计（Section 2）

选择样本类型：
- 全国代表性面板（如 Knowledge Panel、AmeriSpeak、Understanding America Study）
- 商业调查公司配额抽样面板（如 Qualtrics、Dynata、Prolific Academic）
- 商业调查市场平台（如 Lucid）
- 便利样本（如大学生、会议参与者）
- 在线工作平台（如 Amazon MTurk）
- 定向群体（如专家、企业员工）
- 政府/机构调查（如丹麦统计局、消费者预期调查）
"范围抽样"（sampling for range）：样本应在概念上重要的变量上有意多样化（Small 2009）。

第三阶段：处理调查误差与选择偏差（Section 2.2）

理解调查误差的四阶段流程（Figure 1）：
- 目标人群 --> 抽样框/潜在受访者池（覆盖误差 coverage error）
- 抽样框 --> 计划样本（抽样误差 sampling error）
- 计划样本 --> 实际受访者/实际样本（无回应误差 nonresponse error）
区分单元无回应偏差与项目无回应偏差：前者是未开始调查，后者是部分问题缺失。流失（attrition）是项目无回应的特殊情况。
在线样本特征：倾向于偏高教育水平、白人和非西班牙裔，来自大城市的受访者被过度代表，中小城市和农村地区被低估。

第四阶段：招募受访者（Section 2.3）

调查登陆页设计要点：
- 降低感知成本：注明（理想中较短的）调查时长
- 使用简单语言和友好视觉设计，确保移动设备可读
- 不要透露太多关于调查者身份的信息（权衡合法性与选择偏差）
- 显得正式可信：提供联系方式、数据使用说明、隐私保证
- 提供有限的研究目的信息，避免透露实际研究主题以防选择偏差
- 说明调查对研究和受访者的可能益处
- 警告低质量回答可能被标记
其他招募要素：撰写个性化邀请邮件、发送提醒、验证受访者身份（CAPTCHAs、开放式问题）、管理激励和奖励、设置配额筛选。

第五阶段：管理调查实施（Section 2.4）

软启动（soft launch）：在全面启动前先小规模测试完整调查，检测技术问题。
实时监控：关注退出率、配额进度、技术问题；定期查看邮箱反馈。
数据实时检查：从最早的回复开始验证数据有效性，发现误解或错误。

第六阶段：处理流失（Section 2.5）

报告流失：明确定义流失率，报告流失在调查各关键阶段的分布，分析流失与受访者特征的相关性。
预防流失：流畅的用户体验、清晰的视觉设计、简短调查、多种奖励形式、避免过多注意力检查和复杂问题。
纠正无回应偏差的方法：
- 重新加权（reweighting）
- 直接建模选择（modeling selection）
- 效应边界估计（bounding effects）
- 缺失数据插补（imputing missing data）

第七阶段：应对回应偏差（Section 3）

与答案选项相关的偏差（Section 3.1）：
- 温和性偏差（moderacy response bias）：倾向选择中间选项
- 极端回应偏差（extreme response bias）：倾向选择极端值
- 回应顺序偏差（response order bias）：首因效应（primacy，选第一个）和近因效应（recency，选最后一个）
- 解决方案：定制化量表、避免三点量表、随机化回应选项顺序、使用强制选择格式、构建极端回应指数（ERS index）、项目反应理论（IRT）模型、多组验证性因子分析（CFA）、潜在类别因子分析（LCFA）
问题顺序效应（Section 3.2）：
- 认知型：启动效应（priming）、延续效应（carryover）、锚定效应（anchoring）
- 规范型：公平感驱动的调整
- 解决方案：随机化问题/问题块顺序、视觉上分离相关问题
社会期望偏差 SDB（Section 3.3）：
- 在线调查因匿名性天然减少SDB
- 控制调查者身份、匿名水平、问题用途的知晓度
- 在敏感问题前重申匿名性
默许偏差 Acquiescence Bias（Section 3.4）：
- 避免"同意-不同意"格式，使用具体的、针对项目的量表
- 平衡正面和负面选项
- 随机化问题正反表述
实验者需求效应 EDE（Section 3.5）：
- 匿名性、货币激励与真实利益问题
- 模糊化后续追踪（obfuscated follow-ups）
- 模糊化信息干预（obfuscated information treatments）
- 中性和平衡的措辞
- 隐藏实验目的，使用多模块多角度设计

第八阶段：调查实验设计（Section 4）

实验设计类型（Table 1，基于 Clifford et al. 2021）：
- 后测设计（Posttest）：处理组和对照组，仅在干预后测量因变量
- 前测设计（Prepost）：干预前后均测量因变量
- 准前测设计（Quasi-prepost）：干预前测量相关（但不同）变量，干预后测量因变量
- 被试内设计（Within）：所有受访者均接受干预，但在不同时间点，两次测量因变量
第一阶段变量 vs 第二阶段变量：
- 第一阶段：干预直接试图改变的信念/信息/知识
- 第二阶段：受第一阶段变量影响的下游变量（如政策偏好）
- 建议：总是测量后验的第一阶段变量；前测可增加异质性分析和统计功效
启动实验（Priming Treatments, Section 4.2）：
- 机制：改变某概念的相对权重/显著性（accessibility + applicability）
- 类型：倾向性问题、问题顺序随机化、不同内涵的词语/名字、配图变化、图像启动、视频启动
- 启动不应导致学习或信念更新
信息与教学干预（Section 4.3）：
- 类型：定量信息、定性信息、轶事/故事/叙事
- 形式：文本、图像、音频、视频、互动练习
- 额外维度：信息来源、个性化、信息可信度
- 方法论要点：干预应简短、高质量视觉呈现、中性措辞、注意干预时长与耐心的权衡
- 确保产生"更新"（updating）而非仅仅"启动"（priming）
- 使用理解检查题（comprehension checks）
- 主动 vs 被动对照组：主动对照组接收不同信息，可能更好地匹配注意力和情绪效应
因子实验：小品文（Vignette）与联合分析（Conjoint）设计（Section 4.4）：
- 小品文：短描述/故事，沿关键因素变化
- 联合分析：表格式呈现属性及水平
- 优势：可同时测试多因素、乘法式交互、高统计功效
- 挑战：外部效度、认知过载、需避免不合理组合
- 因果识别：平均边际成分效应（AMCE）
- 实践建议：避免不合理组合、控制认知负荷、D-最优设计、随机化属性顺序、被试内设计优于纯被试间设计
后续追踪与持续性（Section 4.5）：
- 启动效应可能很快消散，信息/教学干预更可能持续
- 通过后续调查评估持续性（不重新施加干预）
- 注意：再联系率因平台不同差异大，需提高激励和缩短追踪调查

实验类型

方法论综述，涵盖调查设计与调查实验全流程

核心方法论贡献

将调查从"数据收集工具"提升为"创造自有识别变异的研究过程"
提供从抽样到分析的端到端实操指南
系统整合了应对各类偏差（SDB、EDE、默许偏差、顺序效应等）的最佳实践
清晰分类四种实验设计类型及其权衡
区分第一阶段变量和第二阶段变量的测量策略

亮点

实操性极强：每个环节都提供具体的、可执行的建议
大量跨领域案例：引用经济学、政治学、心理学的调查实践
Figure 1 的四阶段误差模型清晰直观
Table 1 的实验设计分类框架高度实用
对在线调查的选择偏差特征有详细描述
强调调查登陆页设计的微妙权衡（合法性 vs 选择偏差）

局限

主要聚焦在线书面调查，对电话、面对面调查的特殊性讨论较少
未深入讨论统计功效分析和样本量计算
对发展中国家在线调查的代表性问题仅简要提及
部分具体操作细节（如问题措辞最佳实践）放在补充附录中，正文未展开

维度2：理论模型

基准理论框架

本文不是理论驱动的论文，而是方法论指南。但其隐含的核心理论立场是：

调查作为识别策略：调查不仅是收集数据的工具，而是研究者创造自己的控制变异和识别变异的过程。这与传统观测数据的"自然实验"范式互补。
信息等价性问题（Information Equivalence, Dafoe et al. 2018）：调查实验中，不同受访者可能对相同的实验干预产生不同的信息解读，导致他们实际上接受了不同的"处理"。这类似于工具变量中的排除限制条件。
启动的理论机制（Cohn & Marechal 2016; Bargh & Chartrand 2014）：
- 可及性（accessibility）：使某些特征在记忆中更易被激活用于判断任务
- 适用性（applicability）：呈现的刺激或存储的知识被感知为可应用于另一个情境的程度
- 区分概念启动（conceptual priming）和心态启动（mindset priming）
因子实验的因果识别：
- 平均边际成分效应（AMCE, Hainmueller et al. 2014）：改变一个属性的因果效应，同时对其余属性分布取平均。AMCE 关键依赖于用于平均的属性分布选择。

关键公式/方法

极端回应加总指数（ERS index, Johnson et al. 2005）：对每个可能受偏差影响的变量，若答案为极端值则编码为1，否则为0，然后对所有变量求和，作为分析中的控制变量。
重新加权（reweighting）：根据人口特征调整样本权重以纠正选择偏差
ANOVA / 多层建模：分析小品文实验结果（Steiner et al. 2017）

核心假设/前提

受访者的回答能有意义地反映其真实感知、信念和态度（在适当控制偏差后）
随机化可以识别调查实验中的因果效应
在线调查中的匿名性能有效减轻社会期望偏差

可检验预测（隐含）

提供更多关于调查者身份的信息会增加选择偏差
被试内设计比被试间设计需要更小的样本量达到同等统计功效
信息干预的效果比启动干预更持久
主动对照组与被动对照组会产生不同的处理效应估计

维度3：核心发现

本文为方法论综述，不报告具体的实证 effect size。其核心发现/结论为系统性的方法论建议：

关于样本与选择

在线样本在美国可覆盖$25,000-$100,000收入区间，但无法触及收入分布两端
不同研究中流失率通常在15%-30%之间，取决于平台和调查时长
女性、年轻人、低收入和低教育水平受访者更易流失，但流失率差异不大（Dechezlepretre et al. 2022跨20国研究）
将调查数据与行政数据匹配的研究（如丹麦统计局）显示样本与目标人群几乎一致

关于偏差

在线调查因匿名性天然减轻社会期望偏差
流失与处理组的相关性可能引入处理效应估计的偏差
启动效应通常短暂，不太可能持续；信息/教学干预更可能产生持久效果

关于实验设计

配对设计在预测真实投票行为方面优于单一小品文/联合设计（Hainmueller et al. 2015）
配对设计可能促进更高的参与度、沉浸感，并减少满足化行为
MTurk上联合分析任务数量不超过30个时回答质量不下降（Bansak et al. 2018）

稳健性建议

报告原始结果与校正后结果的对比
与基准调查（如已有高质量代表性调查）的答案进行比较验证
检验结果对多种无回应偏差校正方法的稳健性

维度6：与其他文献的关系

领域位置

本文发表于 Annual Review of Economics，定位为经济学调查方法论的权威指南。它填补了一个重要空白：虽然调查方法在社会科学中被广泛使用，但缺乏一篇从经济学视角出发、覆盖全流程的系统性指南。

核心对话论文

调查设计经典教材: Dillman et al. (2014) Internet, Phone, Mail, and Mixed-Mode Surveys: The Tailored Design Method -- 本文大量借鉴并改编其建议使之更适合经济学调查
Pew Research Center (2022) -- 问题撰写最佳实践
Krosnick (1999) Survey Research (Annual Review of Psychology) -- 心理学视角的调查方法论
Haaland, Roth & Wohlfart (2020) Designing Information Provision Experiments -- 信息干预实验设计指南
Haaland & Roth (2020, 2023) -- 模糊化后续追踪方法
Hainmueller et al. (2014, 2015) -- 联合分析方法论与外部效度验证
Dafoe, Zhang & Caughey (2018) -- 信息等价性问题
Clifford, Sheagley & Piston (2021) -- 实验设计类型分类（Table 1的来源）
Cohn & Marechal (2016) -- 经济学中的启动效应综述
Bargh & Chartrand (2014) -- 心理学中的启动效应综述

作者自身系列调查研究（作为案例贯穿全文）

Stantcheva (2021) -- 税收政策认知调查
Stantcheva (2022) -- 贸易政策调查
Alesina, Stantcheva et al. (2018, 2023) -- 代际流动、移民认知调查
Hvidberg, Kreiner & Stantcheva (2021) -- 丹麦收入分配认知调查
Kuziemko et al. (2015) -- 再分配偏好调查实验
Dechezlepretre et al. (2022) -- 气候政策态度跨国调查

新贡献

统一框架：首次将调查流程从头到尾（设计-抽样-招募-实施-偏差处理-实验-分析）整合在一篇经济学综述中
经济学视角的调查观：强调调查是"创造自有识别变异"的研究过程，而非仅仅收集数据
偏差分类学：系统梳理五大类回应偏差（温和性/极端/顺序偏差、问题顺序效应、SDB、默许偏差、EDE）及其解决方案
实验类型分类：将调查实验分为启动、信息/教学、因子实验三大类，并详述各自的方法论要点
实用性：大量具体建议可直接应用于研究实践，降低了新手设计调查的门槛

维度4：变量概览

由于本文为方法论综述而非实证研究，不存在传统意义上的因变量/自变量。但作者明确区分以下方法论概念：

第一阶段变量（First-stage variables）：

干预直接试图改变的对象：信念、信息知识、感知概率、注意力分配等
测量时机：干预后必测；前测可选（提升异质性分析能力与统计功效）
例：税收信息干预后对税率认知的更新

第二阶段变量（Second-stage variables）：

受第一阶段变量影响的下游决策/态度变量
例：政策偏好、投票意向、行为意图

关键诊断变量：

单元无回应（unit nonresponse）vs. 项目无回应（item nonresponse）vs. 流失（attrition）
极端回应指数（ERS index, Johnson et al. 2005）：每变量取极端值=1，加总作为偏差控制
注意力检查通过率
理解检查（comprehension checks）正确率
完成时间（completion time）

核心识别参数：

ATE（Average Treatment Effect）：信息/启动干预的平均处理效应
AMCE（Average Marginal Component Effect, Hainmueller et al. 2014）：联合分析中单一属性的因果效应

调查质量指标：

覆盖误差、抽样误差、无回应误差、测量误差（Figure 1四阶段误差链）
流失率（典型 15%–30%）、再联系率、对人口分布的偏离度

维度5：局限性

聚焦在线书面调查：电话、面对面、混合模式调查的特殊方法学问题（如访问员效应）讨论较少
统计功效分析浅：未深入讨论调查实验的样本量计算、最小可检测效应（MDE）、多重检验校正
发展中国家代表性问题：在线调查在低互联网渗透率国家的偏差仅简要提及，缺乏系统应对方案
数据分析方法略：分析阶段（异质性分析、机器学习子组识别、IV with surveys）只点到即止
行政数据匹配：将调查与行政数据链接的方法、隐私和伦理考虑未充分展开
AI辅助调查未涵盖：发表时点（2023年初）较早，未涉及LLM作为调查工具/受访者模拟器的最新发展
正文-附录权衡：部分关键操作细节（如问题措辞最佳实践、特定平台对比）置于补充附录，正文未展开

维度7：可拓展的研究方向

LLM辅助调查设计与代理回答：用LLM生成问题措辞变体、模拟受访者群体回应、检测潜在偏差；研究"硅样本（silicon samples）"作为先导测试工具的有效性
调查与行政数据整合：拓展丹麦/北欧模式，研究在隐私保护下将调查信念数据与税务/医疗/金融账户数据匹配的方法学
持续性追踪：系统比较启动与信息干预效应衰减的时间常数，建立"信念更新半衰期"的实证基准
跨文化测量等价性：研究信念引出问题在不同文化间的可比性，扩展 Falk et al. (2018) 全球偏好调查的方法学基础
金融决策中的应用：将调查实验工具应用于金融素养、投资信念、ESG偏好等场景，对接 Giglio_2021_FiveFacts_BeliefsPortfolios、Bauer_2025_Sustainability_Preferences_Index_Fund
信息干预实验的元分析：系统综合 Haaland_Roth_2023_DesigningInformationExperiments 框架下的信息实验，量化主动 vs. 被动对照组的偏差差异
激励性 vs. 假设性信念引出对比：与实验经济学的激励信念引出（如 BDM、Karni、QSR）对接，量化两者偏差差异
社会期望偏差的神经/生理基础：用皮电、眼动、fMRI 等生理指标识别 SDB，开发"客观真诚度"补偿指标
AI访问员：研究AI对话式调查（如GPT驱动的开放式访谈）相比传统问卷的偏差结构差异

关键结论

调查是研究者主动创造识别变异的研究过程：精心设计的问题（保持其他条件不变、每问只变一因素）和调查实验（启动/信息/因子）能从主观感知和信念中提取因果证据，是观测准实验范式的有力补充而非替代
应对偏差需要全流程组合策略：从抽样阶段（样本范围多样化、配额校准）、招募阶段（登陆页设计平衡合法性与选择偏差）、问题设计阶段（随机化顺序、强制选择、平衡正反措辞）、到分析阶段（重新加权、效应边界、ERS指数控制），每个环节都需要针对特定偏差源（SDB、EDE、默许、温和性等）部署对应应对工具，单点优化不足以保证因果识别有效性

Stantcheva_2023_HowToRunSurveys