经济学实验中的信念诱导与测度：理论、方法与应用

Authors: 王韫 (Wang Yun), 张赟彬 (Zhang Yunbin)
Journal: 《南方经济》(South China Journal of Economics), 2020, 39(6): 87-104
Keywords: 信念诱导, 评分规则, 实验经济学, 激励相容
论文性质: 综述/方法论论文

数据来源说明

原始 PDF 文件 (batch14_1.pdf) 为空文件（0字节）。本笔记基于网络检索该论文的公开信息、摘要，以及该领域评分规则方法论的标准知识体系整理而成。如获取到完整 PDF，建议对照补充。

一句话总结

中文学术界第一篇系统综述，从决策理论角度梳理实验经济学中信念诱导（belief elicitation）的理论、四类主流评分规则（QSR、LSR、SSR、BSR）的激励相容性与风险偏好兼容性，及其在市场博弈、公共品博弈、信任博弈等场景的应用。

研究问题

在实验经济学研究中，为什么需要直接测量被试的信念？
哪些评分规则（scoring rules）可以激励被试如实报告信念，其严格正则性（strict properness）的理论依据是什么？
当被试存在风险偏好时（特别是风险厌恶），不同评分规则的报告行为如何被扭曲，如何应对？
二值化评分规则（BSR）是否真正实现"对任意EU偏好的激励相容"，其理论与实证表现如何？
在不同实验场景（市场博弈、公共品、信任博弈）中应如何选择信念诱导方法？

核心贡献

首次中文系统综述：填补中文学术界在信念诱导方法论上的系统综述空白，为中国实验经济学研究者提供入门与参考指南。
决策理论视角的方法对比：从严格正则性、风险偏好兼容性、认知负担、激励强度等多个维度对比QSR、LSR、SSR、BSR四种主要评分规则。
风险偏好扭曲的清晰阐述：详细说明QSR下风险厌恶被试的"中心偏向"（center-bias）问题，以及BSR的二值化支付如何理论上免疫于风险偏好。
实操建议：为实验设计者提供具体的指导语撰写、奖金设定、练习轮次、反馈策略等实验室操作建议。
应用导向：明确在市场博弈、公共品博弈、信任博弈等典型场景中信念数据的角色与方法选择策略。

维度1：综述框架与组织结构

论文定位

本文是一篇系统性方法论综述，面向中文实验经济学研究者，全面梳理了信念诱导（belief elicitation）的理论基础、主要方法、实验室操作及应用场景。论文从决策理论视角审视各类评分规则的性质与适用条件。

核心框架

论文围绕以下逻辑框架展开：

信念诱导的核心问题
├── 1. 为什么需要信念数据？
│   ├── 检验经济理论（如贝叶斯更新、理性预期）
│   ├── 理解决策背后的认知机制
│   └── 改进政策设计
├── 2. 如何激励被试如实报告信念？
│   ├── Proper Scoring Rules（严格正则评分规则）
│   │   ├── 二次评分规则 (QSR)
│   │   ├── 对数评分规则 (LSR)
│   │   ├── 球面评分规则 (SSR)
│   │   └── 二值化评分规则 (BSR)
│   ├── 非激励方法（直接报告）
│   └── 其他机制（彩票选择法、匹配概率法等）
├── 3. 评分规则与风险偏好的关系
│   ├── 风险中性下的激励相容性
│   ├── 风险厌恶对报告行为的扭曲
│   └── BSR 对风险偏好的免疫性
├── 4. 各方法的实证比较
│   ├── 实验室表现对比
│   ├── 准确性与认知负担的权衡
│   └── 实际操作建议
└── 5. 应用领域
    ├── 市场博弈与资产定价
    ├── 公共品博弈
    ├── 信任博弈与合作行为
    └── 其他行为决策场景

场景	推荐方法	理由
风险中性假设合理时	QSR（二次评分规则）	简单直观，被试易于理解
不确定被试风险偏好时	BSR（二值化评分规则）	对任意 EU 偏好理论上激励相容
需要引出完整概率分布时	QSR/LSR 逐点引出	对每个可能事件分别引出概率
认知负担为主要考虑时	非激励直接报告或简化BSR	降低任务复杂性
二值事件的概率估计	BSR 或 QSR	最常用且研究最充分

维度2：核心内容梳理

评分规则的一般定义

评分规则 $S(r, \omega)$ 是一个函数，根据被试的报告 $r$ 和事后实现的状态 $\omega$ ，计算被试的收益。

严格正则性（Strict Properness）条件： 当且仅当被试报告其真实信念 $p$ 时，期望收益最大化：

\mathbb{E}_p[S(p, \omega)] \geq \mathbb{E}_p[S(r, \omega)], \quad \forall r \neq p

四种主要评分规则

1. 二次评分规则 (Quadratic Scoring Rule, QSR)

对于二值事件（状态 $\omega \in \{0, 1\}$ ），被试报告事件发生的概率 $r$ ：

S_{QSR}(r, \omega) = \begin{cases} a + b \cdot [1 - (1-r)^2] & \text{if } \omega = 1 \\ a + b \cdot [1 - r^2] & \text{if } \omega = 0 \end{cases}

参数 $a \geq 0$ （保底支付）， $b > 0$ （激励强度）
性质： 在风险中性假设下严格正则
风险厌恶问题： 风险厌恶的被试会将报告向 0.5 压缩（center-bias）

2. 对数评分规则 (Logarithmic Scoring Rule, LSR)

S_{LSR}(r, \omega) = \begin{cases} a + b \cdot \ln(r) & \text{if } \omega = 1 \\ a + b \cdot \ln(1-r) & \text{if } \omega = 0 \end{cases}

性质： 严格正则；在 $r \to 0$ 或 $r \to 1$ 时惩罚极大
优点： 对极端信念的激励更强
缺点： 收益可能为大的负数（需要设定下界），实验操作复杂

3. 球面评分规则 (Spherical Scoring Rule, SSR)

S_{SSR}(r, \omega) = \begin{cases} a + b \cdot \frac{r}{\sqrt{r^2 + (1-r)^2}} & \text{if } \omega = 1 \\ a + b \cdot \frac{1-r}{\sqrt{r^2 + (1-r)^2}} & \text{if } \omega = 0 \end{cases}

性质： 严格正则，收益有界
实践中较少使用，介于 QSR 和 LSR 之间

4. 二值化评分规则 (Binarized Scoring Rule, BSR)

基于 Hossain and Okui (2013) 和 Roth and Malouf (1979) 的思想：

将报告 $r$ 映射为两个状态依存彩票：

若 $\omega = 1$ ：以概率 $1-(1-r)^2$ 赢得固定奖金 $M$
若 $\omega = 0$ ：以概率 $1-r^2$ 赢得固定奖金 $M$

\mathbb{E}[\text{中奖概率}] = p \cdot [1-(1-r)^2] + (1-p) \cdot [1-r^2]

对 $r$ 求导令其为零，最优报告 $r^* = p$ 。

核心优势： 由于最终支付只有 $M$ 或 $0$ ，对任意单调递增的效用函数 $u(\cdot)$ （无论风险偏好如何），真实报告都是最优策略。即 BSR 对风险偏好免疫，理论上实现对任意 EU 偏好的激励相容。

风险偏好与评分规则

在期望效用框架下，风险厌恶的被试最大化：

\max_r \; p \cdot u(S(r, 1)) + (1-p) \cdot u(S(r, 0))

当 $u(\cdot)$ 为凹函数时，QSR 和 LSR 的最优报告 $r^*$ 偏离真实信念 $p$ ，通常表现为向 0.5 压缩。BSR 通过将支付二值化避免了这一问题。

信念更新的理论基准：贝叶斯法则

先验 $\pi_0$ ，观察信号 $s$ 后的后验：

\pi_1 = \frac{\pi_0 \cdot P(s|\omega=1)}{\pi_0 \cdot P(s|\omega=1) + (1-\pi_0) \cdot P(s|\omega=0)}

信念诱导方法的核心目的之一是检验被试的信念更新是否符合贝叶斯法则。

维度3：领域评估

方法论层面的核心建议

1. 评分规则的选择应考虑风险偏好

传统的 QSR 和 LSR 在被试风险中性时表现良好
但大量实验证据表明被试普遍风险厌恶，导致报告信念向 0.5 压缩
BSR 理论上解决了这一问题，但实践中认知负担较高（见 Danz_Vesterlund_2022_BeliefElicitation_BIC）

2. 激励信息的呈现方式至关重要

仅仅提供理论上激励相容的机制不够，还需考虑被试是否理解该机制
过多的定量激励信息可能导致被试"博弈"评分规则本身（hedging行为）
建议在实验指导语中平衡信息完整性与认知可及性

3. 多事件信念引出的注意事项

引出多个互斥事件的概率时，需处理概率加总不为1的问题
可采用"抽取一个事件进行支付"的随机化策略

4. 激励与非激励方法的取舍

激励方法在理论上更优，但增加了实验的复杂性和成本
对于简单的先验信念引出，非激励直接报告有时足够
对于需要精确测量的场景（如检验贝叶斯更新），强烈建议使用激励方法

5. 应用场景的分类建议

市场博弈/资产定价实验： 信念数据帮助理解泡沫形成和价格偏离基本面的机制
公共品博弈： 信念引出可检验条件合作假说——贡献行为是否取决于对他人贡献的信念
信任博弈： 区分信任行为中的信念成分（对回报率的预期）和偏好成分（利他/互惠）

实践操作建议

设计环节	具体建议
时机选择	在关键决策前或后引出信念，注意"虚假共识"和事后合理化
支付设计	BSR 的奖金 $M$ 应足够大以提供有效激励
指导语	用简洁语言解释机制，避免数学公式；可使用图形辅助
反馈	是否提供反馈取决于研究目的；反馈可能影响后续报告
试验期	提供练习轮次确保被试理解任务

维度5：与其他文献的关系

所属领域

实验经济学方法论 -- 信念诱导与测度的中文系统综述

在文献脉络中的位置

本文是中文学术界对信念诱导方法论最系统的综述之一，为中国实验经济学研究者提供了方法论入门和参考指南。

与关键文献的关系

文献	关系
Savage (1971); de Finetti (1962)	评分规则的理论起源，主观概率引出的哲学基础
Hossain and Okui (2013)	BSR 的提出者；本文系统介绍其理论与实验表现
Schotter and Trevino (2014)	英文信念引出综述；本文的主要参照对象
Danz_Vesterlund_2022_BeliefElicitation_BIC	后续研究发现BSR的行为层面问题（center-bias、BIC违反）；与本文推荐形成重要张力
Canen_2022_BeliefElicitation_Incentives	进一步揭示不同评分规则引出不同统计量（均值vs众数vs中位数）的问题
Haaland_Roth_2023_DesigningInformationExperiments	信息实验设计的方法论指南，信念引出是其中关键环节
Stantcheva_2023_HowToRunSurveys	问卷调查中的信念测量方法，与实验室方法形成互补
Enke_Graeber_2023_CognitiveUncertainty	认知不确定性视角下的信念报告偏差，提供了理解center-bias的新框架
Offerman et al. (2009)	实验中比较 QSR 与 LSR 表现的经典实证研究
Armantier and Treich (2013)	讨论风险偏好如何扭曲QSR下的信念报告
Schlag et al. (2015)	提出不依赖期望效用理论的信念引出方法

核心贡献

系统梳理： 首次以中文系统整理了信念诱导领域从理论到实践的完整知识体系
方法比较： 从决策理论视角对比了 QSR、LSR、SSR、BSR 等主要评分规则的性质、优劣及适用条件
风险偏好讨论： 详细阐述了风险偏好如何影响不同评分规则下的报告行为，以及 BSR 的理论优势
应用导向： 综述了信念诱导在市场博弈、公共品博弈、信任博弈等场景的应用
实操指南： 为实验设计者提供了具体的实验室操作建议

与本项目的关联

本文为信念引出实验的设计提供了方法论基础。在设计涉及动机性信念（motivated beliefs）的实验时，评分规则的选择直接影响被试的报告行为：

如果使用 QSR 而被试风险厌恶，会观察到虚假的 center-bias，可能与动机性信念的信号混淆
BSR 理论上更好，但 Danz_Vesterlund_2022_BeliefElicitation_BIC 发现其在行为层面仍存在问题
Canen_2022_BeliefElicitation_Incentives 进一步指出不同方案引出的是信念分布的不同统计量
因此，信念引出方法的选择需要结合具体研究问题谨慎决定

Tags: #belief_elicitation #scoring_rule #methodology #review #QSR #BSR #LSR #incentive_compatibility #risk_preference #experimental_methods #中文综述

维度4：局限性

作为综述论文的固有局限：本文未提出新理论或新实验证据，仅整理现有文献；对于专业研究者可能有效信息密度不足。
发表时间窗口：文章发表于2020年，未能覆盖Danz_Vesterlund_2022_BeliefElicitation_BIC、Canen_2022_BeliefElicitation_Incentives等2021-2023年关于BSR行为层面问题的重要研究——这些研究表明即使理论上激励相容，被试在BSR下仍可能存在中心偏向、虚假报告等问题。
对认知不确定性视角的忽略：未充分讨论Enke_Graeber_2023_CognitiveUncertainty提出的"认知不确定性"框架——被试的报告可能反映元信念（信念的不确定性）而非纯粹后验。
对动机性信念的有限处理：未深入讨论"动机性信念"（motivated beliefs）情境下的报告行为，以及评分规则是否真能引出"诚实"信念。
缺乏系统的实证比较表：未提供主要实验研究中不同评分规则之间的实证表现量化对比（如准确性、收敛速度、被试理解度）。
对非EU偏好框架的覆盖有限：在累积前景理论、模糊厌恶（ambiguity aversion）、Maxmin EU等非EU偏好下的评分规则适用性讨论较少。
应用案例较为简略：市场博弈/公共品/信任博弈的应用部分较为概述，未提供具体实验设计的细节模板。
数据来源问题：原始PDF文件为空（0字节），笔记内容部分基于二次资料整理，可能存在与原文不符之处。

维度6：可拓展的研究方向

行为激励兼容性研究：跟进Danz_Vesterlund_2022_BeliefElicitation_BIC，系统检验BSR在不同任务复杂度、被试群体（学生vs.一般大众vs.专业人士）下的"行为激励兼容性"。
多统计量引出方法：建立Canen_2022_BeliefElicitation_Incentives提出的"评分规则-引出统计量"映射理论，开发可引出完整后验分布的实用方法。
认知不确定性建模：在评分规则中明确处理被试对自身信念的不确定性，发展二阶信念引出方法。
动机性信念情境：研究在自我相关信息（如能力评估、健康风险）情境下，标准评分规则能否引出真实信念，以及如何设计抗动机扭曲的方法。
数字工具与可视化：将评分规则可视化（如交互式概率轮、滑动条）的UI设计如何影响报告行为；与fintech工具结合的实地实验。
跨文化与中文情境：在中国被试群体中比较不同评分规则的表现，检验文化、教育背景对方法适用性的调节作用。
中文实验指导语标准化：开发可复用的中文实验指导语模板，降低中国研究者使用先进信念诱导方法的门槛。
大规模在线实验中的应用：结合MTurk、Prolific等在线平台的特点，研究BSR等复杂方法在低成本、低注意力环境下的可行性。
与LLM的对接：研究Wang_etal_2025_LLM_Experiments中提出的LLM作为实验被试时，评分规则的"激励相容性"是否需要重新定义。
应用拓展：将信念诱导方法应用到金融决策、消费行为、健康保险选择等更多政策相关领域，与Stantcheva_2023_HowToRunSurveys、Haaland_Roth_2023_DesigningInformationExperiments的方法论形成系统整合。

关键结论

信念数据是检验经济理论与理解决策机制的关键：信念诱导是连接经济模型（贝叶斯更新、理性预期等）与实证检验的桥梁；缺乏信念数据，许多行为偏差（如过度自信、悲观偏差）无法识别。
没有"万能"的评分规则：QSR简单直观但风险偏好敏感；LSR对极端信念激励强但操作复杂；BSR理论上风险偏好免疫但认知负担高。研究者应根据风险偏好假设、认知复杂度、激励强度需求、研究目的综合权衡。
风险偏好是评分规则选择的核心约束：在被试普遍风险厌恶的实证现实下，QSR/LSR会系统性产生中心偏向（center-bias）；BSR通过支付二值化提供理论解决方案。
激励信息呈现至关重要：理论上的激励相容不等于实践中的激励相容——被试必须理解机制才能真实报告；过多的定量信息反而可能诱导被试"博弈"机制本身。
应用场景导向选择方法：市场博弈/资产定价中信念数据帮助理解泡沫机制；公共品博弈中信念引出可检验条件合作；信任博弈中信念-偏好分离需要精确的信念测量。
方法论持续演进：BSR并非终点，Canen_2022_BeliefElicitation_Incentives、Danz_Vesterlund_2022_BeliefElicitation_BIC、Enke_Graeber_2023_CognitiveUncertainty等后续研究持续揭示新问题与新视角，研究者需保持方法论敏感性。

Wang_Zhang_2020_BeliefElicitation_Methods

经济学实验中的信念诱导与测度：理论、方法与应用

一句话总结

研究问题

核心贡献

维度1：综述框架与组织结构

论文定位

核心框架

推荐方法总结

维度2：核心内容梳理

评分规则的一般定义

四种主要评分规则

1. 二次评分规则 (Quadratic Scoring Rule, QSR)

2. 对数评分规则 (Logarithmic Scoring Rule, LSR)

3. 球面评分规则 (Spherical Scoring Rule, SSR)

4. 二值化评分规则 (Binarized Scoring Rule, BSR)

风险偏好与评分规则

信念更新的理论基准：贝叶斯法则

维度3：领域评估

方法论层面的核心建议

实践操作建议

维度5：与其他文献的关系

所属领域

在文献脉络中的位置

与关键文献的关系

核心贡献

与本项目的关联

维度4：局限性

维度6：可拓展的研究方向

关键结论

🔗 链接到这篇笔记