Second-party and third-party punishment in a public goods experiment

Zhou et al. (Janu), Applied Economics Letters

摘要

We experimentally investigate whether third-party punishment is more effective than second-party punishment to increase public goods contribution. In our experiment, third parties first played the standard public goods game and then made punishment decisions as independent bystanders. We find that third parties punished more frequently, severely and less antisocially, resulting in a higher contribution level than that driven by second-party punishment. The third party’s exaggerated emotion towards free riders is proposed to explain their superior punishment effectiveness.

一句话总结

本文通过公共品实验发现，第三方惩罚比第二方惩罚更频繁、更严厉、更少反社会性，从而更有效地提高了公共品贡献水平，并提出"情绪放大"机制作为解释。

研究问题

在公共品博弈中，第三方惩罚（TPP）与第二方惩罚（SPP）哪个更能有效促进合作？已有文献对此结论不一：一次性博弈中SPP通常更强（如Fehr_Fischbacher_2004_ThirdParty_Punishment），而重复博弈中TPP可能更强（如Carpenter_Matthews_2009_Norms_Punishment），但后者存在规模效应和角色交叉等混淆因素。本文旨在通过控制这些混淆因素提供更干净的比较。

核心贡献

设计了被试间实验，让每个惩罚者只扮演一种角色（第二方或第三方），并控制了惩罚规模效应，使两种惩罚具有可比性
发现TPP在频率、严厉度和反社会惩罚方面均优于SPP，最终带来更高的贡献水平
提出"情绪放大"机制：第三方先经历自己组内的搭便车，愤怒无法通过惩罚本组成员释放，转而更猛烈地惩罚外组搭便车者
通过补充准实验（Supplemental Material D）验证了负面经历→负面情绪→更重惩罚的因果链条

维度1：实验设计分析

基本参数：

地点：中国深圳；软件：z-Tree 3.3.12
被试：60名研究生（Treatment S: 36人，Treatment T: 24人；35男25女）
时长：约1.5小时；出场费30 RMB；代币兑换比10:1；平均收入70.4 RMB

被试间设计，两个Treatment：

Treatment S（第二方惩罚，SPP）

每期被试体验如下：

分组：每期随机匿名分为4人一组（stranger matching）
贡献阶段：每人获得20代币初始禀赋，同时决定向公共账户贡献多少（MPCR = 0.4）。贡献后看到自己本阶段收益
惩罚阶段：看到本组其他3名成员的贡献额，决定是否惩罚及惩罚力度。惩罚成本比为1:3（花1代币减少对方3代币）。每人最多对任一成员分配8个惩罚点，总惩罚点不超过第一阶段收益
结果反馈：看到第一阶段收益、给出的惩罚点总数、收到的惩罚点总数、最终收益
重复20期

Treatment T（第三方惩罚，TPP）

贡献阶段与S完全相同。关键区别在惩罚阶段：

贡献阶段：同S，在自己组内进行
惩罚阶段：看到的是相邻组（非本组）成员的贡献信息，但看不到本组信息。组号1-6排列，第i组只能惩罚第i+1组（最后一组不能惩罚第一组以避免互惠圈）
规模控制：为控制惩罚对象数量差异，第三方只能惩罚目标组中与自己组内编号不同的3名成员（而非全部4名），使SPP和TPP惩罚者均面对3个潜在惩罚对象
信息等价：从惩罚者视角，SPP和TPP获得的信息结构相同——都只看到被惩罚组的贡献信息

理解检验： 开始前需回答7道理解测试题，全部正确方可开始

关键设计优势：

Stranger matching排除了策略性惩罚动机
每人只扮演一种角色，排除了角色交叉的交互效应
控制了惩罚规模（均为3人），排除了Carpenter_Matthews_2009_Norms_Punishment中的混淆

维度2：理论模型

本文在Supplemental Material C中运用三种理论框架分析惩罚行为：

1. 不平等厌恶模型（Fehr & Schmidt, 1999）

预测：惩罚者会惩罚贡献低于自己的人（不利不平等）和高于自己的人（有利不平等）
验证：NegDiffI在SPP和TPP决策模型中均显著为正（0.536和0.452），证实不平等厌恶驱动惩罚

2. ERC公平竞争模型（Bolton & Ockenfels, 2000）

关注组层面公平：偏离组均值的人应被惩罚
与不平等厌恶模型高度相关（相关系数>0.97），实证中难以区分

3. 贡献规范（Reuben & Riedl, 2013）

效率规则：应尽可能多贡献
相对贡献规则：应贡献公平份额
预测：组平均贡献越高，惩罚应越少
验证：GroOthA系数在多数模型中不显著，贡献规范的证据较弱

情绪机制（本文提出的核心解释）

TPP中第三方先在自己组经历搭便车（但不能惩罚本组），再观察到外组的搭便车行为
这种"双重负面经历"放大了愤怒情绪，导致更重的惩罚
补充准实验（Supplemental Material D）支持：负面经历→愤怒↑→惩罚↑

维度3：核心发现

惩罚行为差异

指标	SPP (Treatment S)	TPP (Treatment T)	显著性
平均惩罚严厉度	0.9 代币	1.6 代币	t-test, p=0.025
惩罚参与率	37.5%	40.6%	—
惩罚频率（每次机会）	19.9%	25.9%	χ², p<0.01
对搭便车者惩罚	1.35	2.92	—
对合作者惩罚（反社会）	1.80	1.18	—
反社会惩罚占比	~27% (115/430)	~27% (83/311)	—

贡献水平差异

TPP组平均贡献 9.8 vs SPP组 6.4（p<0.01）
多花0.7代币惩罚 → 多得3.4代币贡献，净收益2.7代币

惩罚模式

两种惩罚者对偏离者的态度相似：偏离越大，惩罚频率和严厉度越高
TPP对负向偏离（搭便车）比正向偏离（高贡献者）更敏感——不对称性更强
回归分析确认：NegDiffI在两种模型中均显著，但TPP对搭便车者施加了更重惩罚

盲目报复检验

SPP中存在盲目报复：上期收到惩罚 → 本期更可能惩罚他人（P_received(-1)系数显著）
TPP中不存在盲目报复（系数不显著）——这符合预期，因为第三方不惩罚本组成员

补充准实验（Supplemental Material D）

80名线上被试，between-subject设计
Experience组比Baseline组施加更重惩罚（8.6 vs 3.9个月监禁，p=0.005）
愤怒情绪与惩罚力度显著正相关（β=1.009, p<0.05）

维度4：变量概览

观测变量（因变量）

P_decision：是否惩罚（0/1二元变量）
P_received：收到的惩罚点数
Punishing：施加的惩罚点数（严厉度）
贡献额（Contribution）：每期投入公共账户的代币数

Treatment变量

Treatment S vs T：被试间设计，S为第二方惩罚，T为第三方惩罚

关键自变量

NegDiffI：被惩罚者贡献低于惩罚者的差额（不利不平等）
PosDiffI：被惩罚者贡献高于惩罚者的差额（有利不平等）
GroOthA：其他组员的平均贡献（排除被惩罚者）
PosDiffG / NegDiffG：相对于组均值的正/负偏离（组层面公平）

控制变量

Period：期数（控制时间趋势）
Gender：性别（0=男，1=女）
Wealth：家庭经济状况（0=富裕，1=贫困）
Major：专业（0=非经济学，1=经济学）

维度5：局限性

样本量较小：SPP仅36人、TPP仅24人，统计效力有限
被试群体单一：全部为中国深圳研究生，外部有效性受限；文化因素（如集体主义倾向）可能影响结果
情绪机制为推测性：主实验未直接测量情绪，情绪解释依赖补充准实验；准实验采用假想情境而非真实博弈
准实验的方法论弱点：在线问卷平台、非激励兼容、样本为网络用户而非实验室被试
信息结构不完全对称：虽然惩罚者获得的信息结构相同，但TPP中第三方实际上先经历了本组博弈（有自身组的经验），而SPP中的第二方直接惩罚本组——两种角色的心理状态本质不同，难以完全剥离
缺乏对组间差异的深入分析：未报告组层面的异质性
反社会惩罚的来源：两种treatment中反社会惩罚比例相近（约27%），但未深入分析其驱动因素
过度惩罚风险：文章承认，有先前负面经历的第三方可能"过度情绪化"而过度惩罚，但未量化这一风险

维度6：与其他文献的关系

Fehr_Fischbacher_2004_ThirdParty_Punishment：本文的核心对比文献。F&F在独裁者博弈和囚徒困境中发现TPP比SPP更弱，本文结论相反。关键差异：F&F的第三方完全独立，无情感卷入机会；本文的第三方先经历了本组的公共品博弈
Carpenter_Matthews_2009_Norms_Punishment：本文结果与其一致（TPP更强），但C&M存在规模效应和角色交叉混淆
Herrmann_Thoni_Gachter_2008_Antisocial_Punishment：反社会惩罚的定义和文献来源；本文发现TPP反社会惩罚更少
Fehr_Schmidt_1999_Theory_Fairness：不平等厌恶模型，本文用其解释惩罚决策
Bolton_Ockenfels_2000_ERC_Equity：ERC公平竞争模型，作为替代理论框架
Reuben_Riedl_2013_Enforcement_Contribution_Norms：贡献规范理论
Fehr_Gachter_2000_Cooperation_Punishment：公共品中同伴惩罚的经典文献
Leibbrandt_LopezPerez_2012_Third_Second_Punishment：在10种简单博弈中比较TPP和SPP
Andreoni_Gee_2012_Gun_Hire：委托执法与同伴惩罚
Bosman_VanWinden_2002_Emotions和Nelissen_Zeelenberg_2009_Moral_Emotions：情绪与惩罚的文献基础

维度7：可拓展的研究方向

直接测量情绪：在公共品实验中加入实时情绪测量（如面部表情识别、自报量表、皮肤电反应），建立"经历→情绪→惩罚"的完整因果链
Partner matching对比：在固定配对（partner matching）下比较SPP和TPP，考察声誉机制与策略性惩罚的交互作用
跨文化复制：在个人主义文化背景下（如北美、西欧）复制实验，检验结果的文化稳健性
内生选择惩罚制度：让被试投票选择SPP或TPP制度，观察制度选择偏好及其对合作的影响
第三方惩罚的过度惩罚问题：系统研究有负面经历的第三方是否会过度惩罚，以及如何设计制度约束来防止过度惩罚
不同经历强度的参数化：操纵第三方在本组经历搭便车的严重程度，观察情绪放大效应是否呈现剂量-反应关系
结合神经科学方法：使用fMRI或EEG观察SPP和TPP惩罚者在做惩罚决策时的脑区激活差异
现实应用：将发现拓展至司法陪审团、在线评价系统、社区治理等现实场景中第三方惩罚的制度设计

关键结论

在公共品博弈中，当第三方惩罚者先经历本组的合作博弈后再作为旁观者进行惩罚时，他们比直接利益受损的第二方惩罚得更频繁、更严厉、更少反社会性，最终带来了显著更高的合作水平。本文提出的核心机制是"情绪放大效应"：第三方无法惩罚本组的搭便车者，积累的愤怒转移到对外组搭便车者的惩罚中。这一发现对理解惩罚制度设计具有重要启示——将有相似经历的第三方纳入惩罚机制可能提升制度效率，但也需警惕过度惩罚的风险。

Zhou_Janu_Second_Party_Third_Party