Payoff-Based Belief Distortion

元数据

作者: Peiran Jiao
期刊: The Economic Journal, 130(July), 1416-1444
年份: 2020
DOI: 10.1093/ej/ueaa019
机构: Maastricht University; Nuffield College, University of Oxford
关键词: belief distortion, payoff experience, reinforcement learning, information processing, overoptimism
实验地点: Nuffield College Centre for Experimental Social Sciences (CESS), University of Oxford
被试: 实验1: 122人; 实验2: 同批被试（两实验同session进行）

一句话总结

通过两个实验外生操控收益/损失经历但保持信息含量恒定，提出并实证验证 Payoff-Based Belief Distortion (PBBD) 模型——经历过的收益本身（即便不含信息）会通过扭曲信号感知/加权而系统性地偏移信念，正强化使信念向偏好状态偏移、负强化反向，且效应持久。

研究问题

核心问题：经历过的收益（payoffs）是否会因果性地扭曲信念，即使这些收益本身不携带任何关于资产基本面的信息？

子问题：

(H1) 信念偏差的方向：正强化 → 高估更偏好状态的概率；负强化 → 低估？
(H2) 信号加权偏差：经历收益后，是否会高估与收益一致的信号、低估与收益不一致的信号？
该偏差能否在排除 desirability bias、wishful thinking、确认偏差、风险偏好变化、赌徒谬误后仍稳健存在？
该偏差是否随收益幅度（gain/loss magnitude）增强？

核心贡献

理论建模：首次正式建立 Payoff-Based Belief Distortion (PBBD) 模型，将强化学习的"reinforcement value"嵌入贝叶斯信念更新框架，刻画收益经历对信号感知/加权的非贝叶斯扭曲。
实验设计创新：
- 实验1（股票预测）外生分配持仓状态（GAIN10/GAIN20/LOSS20/NO），所有处理组观察完全相同的真实 NYSE 价格序列，从而把"收益经历"与"价格信息"完全分离。
- 实验2（urn task）使用 bingo cage 抽球任务，存在客观贝叶斯基准，可直接量化偏差大小并测试信号加权机制。
- 信念引出时被试已无持仓，并在无买卖决策环境下进行，干净排除 desirability bias 与 self-justification。
机制识别：通过控制 ΔP（避免赌徒谬误/热手）、控制先验（避免 confirmation bias）、控制风险态度（无相关），首次干净识别"收益经历 → 信念扭曲"的因果通道。
持久性证据：从 Period 20 到 Period 80 信念偏差几乎不衰减，说明该偏差不是短暂的情绪反应。
政策含义：为投资者教育、基金经理管理、监管信息呈现方式提供理论与实证基础。

维度1：实验设计分析

核心研究问题

经历过的收益/损失（payoffs）是否会系统性地扭曲信念？即使这些收益/损失不包含任何关于未来的信息。

实验任务详细流程

实验1：股票价格预测（Stock Price Prediction）

总体设计: 被试观察真实NYSE股票的价格序列，外生操控收益/损失经历，然后预测未来价格。

处理组（Between-subject, 4组）:

处理组	持仓	前20期收益经历	被试数
GAIN10	多头10股	价格涨则获益	28
GAIN20	多头20股	价格涨则获益（更大）	29
LOSS20	空头20股	价格涨则亏损	32
NO	无持仓	无收益/损失	33

任务流程（每只股票）:

被试获得800 ECU初始禀赋 + 根据处理组获得额外现金或股份
观察24只真实股票的价格序列，每序列101个周期（Period 0到Period 100），价格缩放至0-200 ECU
两只股票为重复序列（用于一致性检验）
先观察价格到Period 20 --> 获得前20期收益/损失信息
第一次信念引出: 预测Period 100的价格
继续观察到Period 80
第二次信念引出: 再次预测Period 100的价格
进入下一只股票（无反馈，避免学习效应）

关键设计要素:

收益/损失不含信息: 所有处理组观察完全相同的价格图表，收益差异纯粹来自外生持仓分配
无股份持有时报告信念: 报告信念时被试已无股票持仓，避免endowment effect和desirability bias
无买卖决策: 避免self-justification concerns
财富效应控制: NO处理组的现金禀赋匹配GAIN20处理组的现金余额
两次重复序列保证间隔足够远，被试无法识别

信念引出方法: Exchangeability Method

被试在[0, 200]滑条上选择r*
等价于在两个彩票间选择：Lottery A (200|[r,200], 0) vs Lottery B (200|[0,r], 0)
随机数Z从[0, 200]均匀分布抽取，决定实际支付
此方法激励相容（incentive compatible）

报酬: show-up fee $4, 平均支付 $20, 每session 1.5-2小时; 150 ECU = $1

实验2：从罐中抽球（Drawing Balls from Urns）

总体设计: 被试观察从两种罐子中抽出的球，外生操控收益/损失，预测第14次抽球结果。直接测试信号加权偏差（H2）。

基本设置:

两个罐子: Urn A (6P + 4Q) vs Urn B (4P + 6Q)
每轮开始掷骰子决定使用哪个罐子（1-4用A, 5-6用B）
共26轮，每轮有放回抽球
被试观察抽球并预测第14次抽球是P球的概率

处理组（Between-subject, 4组）:

处理组	前5次抽球的收益结构
P50	每抽到P球获益（亏损）50 ECU
P100	每抽到P球获益（亏损）100 ECU
Q100	每抽到Q球获益（亏损）100 ECU
NO	无收益/损失（现金匹配P100）

任务流程（每轮）:

获得500 ECU禀赋 + 额外现金/股份
观察前5次抽球 --> 获得收益/损失
第一次信念引出: 预测第14次抽球是P球的概率（Period 5）
继续观察第6-13次抽球（无收益/损失）
第二次信念引出: 再次预测（Period 13）
观察第14次抽球结果

关键设计要素:

存在客观贝叶斯基准，可直接比较信念偏差
前5次抽球后不再有收益/损失 --> 信念引出时无desirability bias
可直接测试信号加权：P球和Q球在信念更新中的权重是否因收益经历而不同
序列预先确定（bingo cage），被试可检查
球的颜色在轮次间不固定（避免混淆）

实验流程时间线

理解测试（必须全部正确才能开始）
实验1和实验2在同一session中依次进行
实验结束后引出风险态度（survey measure 1-10 + multiple price list）
人口统计问卷
随机选一轮支付

维度2：理论模型

PBBD模型（Payoff-Based Belief Distortion）

核心思想: 经历过的收益构成"强化值"（reinforcement value），这个强化值扭曲了信息处理过程，导致对新信号的误感知。

模型设定:

状态空间: $\mathscr{A} = \{A^1, A^2, ..., A^M\}$ ，按一阶随机占优排序
收益空间: $\mathcal{A} = \{a^1, a^2, ..., a^N\}$ ， $a^1 \leq a^2 \leq ... \leq a^N$
每个状态 $A^m$ 下实现收益 $a^n$ 的概率: $\theta_{nm} = p(a^n|A^m)$

强化值（Reinforcement Value）:

R_t = \phi R_{t-1} + c_{t-1} a_t \tag{1}

其中 $\phi \in [0, 1]$ 为折扣/遗忘参数， $c_t \in \{0, 1\}$ 为行动选择。当 $\phi = 1$ 时， $R_t$ 为所有过去收益的加权和。

贝叶斯基准（无偏差）:

\ln \Lambda_t^{12} = \ln \Lambda_{t-1}^{12} + \ln \frac{\theta_{n1}}{\theta_{n2}} \tag{2}

PBBD有偏更新:

\ln \Lambda_{t,Biased}^{12} = \ln \Lambda_{t-1,Biased}^{12} + \sum_{i=1}^{N} [(1 - q(R_t)) I(a^i = a_t) + q^+(a^i|a_t, R_t) I(a^i \geq a_t) I(R_t > 0) + q^-(a^i|a_t, R_t) I(a^i \leq a_t) I(R_t < 0)] \ln \frac{\theta_{i1}}{\theta_{i2}} \tag{4}

核心机制: 当 $R_t > 0$ （正强化），agent以概率 $q(R_t)$ 将实际收益 $a_t$ 误感知为更好的收益 $a^i > a_t$ ；当 $R_t < 0$ （负强化），误感知为更差的收益。

简化二元收益示例（股票好/坏）:

信号: U (价格上涨) 或 D (价格下跌)
正强化后的感知概率: $\sigma = P(U|R>0, G) = P(D|R<0, B) = \theta + q(1-\theta)$
有偏后验似然比（正强化）: $\Lambda_{R>0}^{Biased} = \left(\frac{\theta}{1-\theta}\right)^3 > \Lambda^{Bayesian}$ (公式8)
有偏后验似然比（负强化）: $\Lambda_{R<0}^{Biased} = \left(\frac{\theta}{1-\theta}\right)^{-1} < \Lambda^{Bayesian}$ (公式10)

信号加权的观察者视角:

\ln \Lambda_{R>0}^{Observer} = \ln\left(\frac{\theta}{1-\theta}\right) n_U - \ln\left(\frac{\theta}{1-\theta}\right)(1-2q)n_D \tag{14}

\ln \Lambda_{R<0}^{Observer} = \ln\left(\frac{\theta}{1-\theta}\right)(1-2q)n_U - \ln\left(\frac{\theta}{1-\theta}\right) n_D \tag{15}

对比贝叶斯基准中P球和Q球权重均为0.4055，PBBD预测：正强化后高估与收益一致的信号权重，低估不一致的信号权重。

两个核心假设

H1（信念偏差）: 正强化使PBBD agent高估更偏好状态的概率；负强化则低估。

H2（信号加权偏差）: 正强化使agent相对于坏信号高估好信号的权重；负强化相反。

维度3：核心发现

实验1结果

主效应（H1确认）: 收益/损失对信念的因果效应

指标	效应量	显著性
Gain对Period 20信念的影响	+13.49 pp (0.38 SD)	p < 0.01, t = 8.79
Loss对Period 20信念的影响	-8.49 pp	p < 0.01, t = -5.58
Gain对Period 80信念的影响	+11.95 pp	p < 0.01, t = 7.92
Loss对Period 80信念的影响	-9.28 pp	p < 0.01, t = -6.37
Gain增加信念偏差(Period 20)	+14.16 pp (38% SD)	-
Gain增加信念偏差(Period 80)	+12.60 pp (31% SD)	p < 0.01

所有处理组对比NO组的Wilcoxon检验均显著 (p < 0.01)，GAIN10除外 (p > 0.10，但方向一致)
纯粹按gain vs loss分类（不分处理组）: gain者报告显著更高的预期未来价格 (p < 0.001, Wilcoxon)
GainLoss连续变量显著正相关信念偏差 (coef = 0.02, p < 0.01)，支持收益幅度也影响偏差

持续性: 效果从Period 20持续到Period 80，非常持久。

实验2结果

主效应（H1确认）: 收益偏差信念

比较	效应量 (Cohen's d 近似)	统计检验
P50-NO（更多P球序列, 获益后）	+0.83 pp偏差	t = 2.98, p < 0.01
P100-NO（更多P球序列, 获益后）	+1.33 pp偏差	t = 4.68, p < 0.01
Q100-NO（更多Q球序列, 获益后）	-1.70 pp偏差	t = -12.76, p < 0.01

收益幅度效应: P100被试在获益后比P50被试显著更高估P球 (Difference = 0.50, p < 0.01, df = 796)

信号加权偏差（H2确认）:

贝叶斯基准: P球和Q球权重均为0.4055
实际数据（全样本）: \alpha_1 = 0.17 (P球权重), \alpha_2 = -0.19 (Q球权重)
- 两者均显著低于0.4055 (p < 0.001)，反映整体保守主义
- $\alpha_1$ 显著大于 $\alpha_2$ 绝对值 (Wald test p < 0.001)
P50/P100处理组（获益后）: 获益后 $\alpha_4$ 显著为正（高估与收益一致的信号），支持PBBD
Q100处理组（获益后）: $\alpha_3$ 显著为负（获益后低估与收益不一致的信号）

不对称性: 获益后的信念扭曲似乎强于亏损后，可能反映"鸵鸟效应"（ostrich effect）

稳健性检验

替代解释	检验方法	结论
风险态度变化	Spearman相关: 收益与风险态度相关r = -0.07 (p=0.47) 和 r = -0.02 (p=0.83)	排除
赌徒谬误/热手效应	加入价格变化控制变量 $\Delta P$	效应不变，排除
确认偏差	检验先验信念与更新方向的交互	控制后效应不变，排除
Desirability bias	报告信念时无持仓	设计上排除（残留desirability bias方向相反）
学习效应	前半vs后半session	结果稳健
特定股票驱动	12股子样本分析	结果稳健

维度6：与其他文献的关系

在信念偏差文献中的位置

本文填补了一个重要空白：虽然大量文献研究了个人经历对后续行为的影响（如Malmendier & Nagel, 2011的"depression babies"），但很少有文献直接研究收益经历如何通过信息处理扭曲来影响信念。

与相关文献的关系

文献	本文区别
强化学习 (Erev & Roth, 1998; Camerer & Ho, 1999)	强化学习关注行动选择，PBBD关注信念更新；在PBBD中，不影响信息的新信号到来时，过去收益不应影响信念
确认偏差 (Rabin & Schrag, 1999)	确认偏差的先验来源不明确；PBBD明确先验由收益经历塑造，且收益可使信念偏离先验方向
Malmendier & Nagel (2011)	他们发现经历影响行为，但未区分信息通道和收益通道；PBBD预测同一事件的不同收益经历者会形成不同信念
Hoffmann & Post (2015)	发现投资者外推经历的收益和风险，但未建立收益的客观信息价值
Kuhnen (2015)	实验发现亏损使人更悲观，但未创造收益/损失间完全相同信息含量的条件
Desirability bias (Mayraz, 2011)	Desirability bias需要当前利益；PBBD只需过去收益经历，且在无持仓时仍发生
热手/赌徒谬误 (Gilovich et al., 1985)	基于观察到的结果序列，与收益无关；PBBD基于收益

核心贡献

首次正式建模收益经历如何通过信息处理扭曲（而非偏好变化）影响信念
首次实验证明在收益不含信息的条件下，收益仍因果性地影响信念
将强化学习与贝叶斯信念更新联系起来，提出"强化值对信念更新的外部性"
对金融市场（泡沫形成、异质信念、交易行为）有重要含义

政策启示

向投资者呈现信息时应减少对收益的强调，突出与收益矛盾的市场信息
基金经理的持续收益/亏损经历可能导致过度乐观/悲观，建议组建混合经验团队或轮岗

局限与未来方向

$q(R)$ 函数的具体形式（是否关于收益/损失不对称）尚未完全刻画
部分结果与desirability bias共存，二者难以完全分离
未来可研究PBBD与资产定价的交互作用、PBBD在不同主观不确定性水平下的变化

维度4：变量概览

实验1主要变量：

因变量：Period 20 / Period 80 报告的预期 Period 100 价格 r*（0–200 ECU）
自变量：处理组 dummy（GAIN10, GAIN20, LOSS20, NO）；GainLoss 连续变量（实际收益/损失金额）
信念偏差 = 报告价格 − 客观基准（最后观察价格 / 简单 OLS 外推）
控制：ΔP（最后10期价格变化）、当前价格水平、先验信念、风险态度、性别、年龄、专业

实验2主要变量：

因变量：第14次抽到 P 球的报告概率（Period 5 / Period 13）
信念偏差 = 报告概率 − Bayesian 后验
自变量：处理组 dummy（P50, P100, Q100, NO）
信号加权系数：α₁（P 球权重）、α₂（Q 球权重）、α₃ / α₄（与处理交互项）

理论模型参数：

φ ∈ [0,1]：强化值的折扣/遗忘参数
q(R)：误感知概率函数（关于 R 的递增）
σ = θ + q(1−θ)：正强化下的感知信号概率
θₙₘ：状态 m 下信号 n 的真实概率

辅助测量：

风险态度：survey 1–10 + multiple price list
一致性检验：两只重复股票序列的信念差异
理解测试通过率（必须 100%）

维度5：局限性

q(R) 函数形式未完全识别：模型设定较为灵活，未估计 q(R) 关于 R 的具体函数形式（线性？凸？是否对称）。
不对称性未被纳入模型：实验数据显示获益后扭曲可能强于亏损后（"鸵鸟效应"），但 PBBD 当前版本对称设定。
样本规模与外部效度：N=122（实验1），均为牛津 CESS 学生池，非真实投资者，金额相对较小（平均支付 $20）。
信念引出方法依赖：使用 exchangeability method，结果可能对引出机制敏感，未与 BDM、QSR 对比。
真实股票选择：24 只 NYSE 股票的选择标准虽随机但价格序列特征可能与实验室抽象任务不完全匹配。
Desirability bias 难以完全排除：虽然引出时无持仓，但若被试仍有"未来仓位"心理预期则可能残留。
未测量记忆/注意力机制：是否被试只是遗忘了部分价格变动？参 Godker_Jiao_2025_InvestorMemory 后续工作。
跨情境泛化性：未检验 PBBD 在长期、多资产组合、市场反馈环境下的稳健性。
收益与情绪混淆：经历收益可能引发正向情绪进而影响认知，本文未直接测量情绪。
未量化福利损失：PBBD 引发的均衡价格扭曲、福利损失、政策干预效应未做结构估计。

维度7：可拓展的研究方向

结构估计 q(R)：用更精细的实验数据估计 q(R) 函数的形式与不对称性，以利市场均衡分析。
PBBD 与资产定价：在市场实验中引入 PBBD 投资者，研究其对价格泡沫、波动率、过度交易的影响（参 Bernales_2020_SpeculativeBubbles_SupplyConstraints）。
PBBD 与 ambiguity：在主观不确定性更强的情境下 PBBD 是否放大（参 Jiao_Li_2021_LosingFaith_PayoffExperiences_Ambiguity）。
记忆机制：PBBD 是通过感知误差还是选择性记忆实现？（参 Godker_Jiao_2025_InvestorMemory）
PBBD 与处置效应交互：PBBD 信念偏差 + Jiao_2017_MeanReversion_DispositionEffect 的均值回复信念，对持仓决策的联合影响。
群体异质性：性别、年龄、教育、投资经验、认知能力（CRT）对 q(R) 的调节。
真实投资者样本：在散户投资者、基金经理样本上复现 PBBD 效应。
去偏干预：通过反事实呈现、Bayesian 提示、强制信念校准（calibration training）减弱 PBBD。
神经机制：fMRI 测量 reinforcement value 在 ventral striatum 的编码与信念形成在 PFC 的关联。
跨域应用：PBBD 在劳动力市场（薪酬经历影响生产率信念）、政治信念（经济周期经历影响政策信念）、健康（治疗经历影响疗效信念）的应用。
与社交学习交互：PBBD 信念在社交网络中的扩散与放大（参 Jiao_082_Social_Media_News_Media）。
资产定价模型嵌入：将 PBBD 嵌入 representative-agent 或 heterogeneous-agent 资产定价模型，对比与 extrapolation（参 Barberis_2015_XCAPM_Extrapolative）的预测差异。

关键结论

收益经历因果性扭曲信念：在信息含量完全相同条件下，外生分配的收益使信念向偏好状态偏移（实验1：+13.5pp at Period 20；实验2：P100 处理 +1.33pp 偏差）；亏损反向。
效应持久：从 Period 20 到 Period 80 偏差几乎不衰减（11.95pp / 9.28pp），不是短暂情绪反应。
收益幅度有效：GAIN20 vs GAIN10、P100 vs P50 显示偏差随收益幅度增强，支持 PBBD 模型中 q(R) 关于 R 递增的预测。
信号加权偏差（H2）确认：实验2 中正强化后 P 球权重显著高于贝叶斯基准、Q 球权重显著低于基准；负强化（Q100）反向。
替代解释稳健排除：风险态度变化（无相关）、赌徒谬误（控制 ΔP 不变）、确认偏差（控制先验不变）、desirability bias（信念引出时无持仓）、学习效应（前后半 session 一致）、特定股票（12 股子样本一致）。
不对称性：获益后扭曲似乎强于亏损后，可能反映"鸵鸟效应"（投资者更倾向把好消息内化为自身能力，而对坏消息保持距离）。
理论意义：PBBD 把强化学习与贝叶斯信念更新桥接起来——过去收益作为"强化值"对当前信号感知产生外部性，使理性 agent 也产生持久信念偏差。
政策含义：投资者教育、信息呈现（淡化短期收益、强调长期信息）、基金经理团队多样化（不同收益经历背景）。

Jiao_2020_PayoffBased_BeliefDistortion

Payoff-Based Belief Distortion

元数据

一句话总结

研究问题

核心贡献

维度1：实验设计分析

核心研究问题

实验任务详细流程

实验1：股票价格预测（Stock Price Prediction）

实验2：从罐中抽球（Drawing Balls from Urns）

实验流程时间线

维度2：理论模型

PBBD模型（Payoff-Based Belief Distortion）

两个核心假设

维度3：核心发现

实验1结果

实验2结果

稳健性检验

维度6：与其他文献的关系

在信念偏差文献中的位置

与相关文献的关系

核心贡献

政策启示

局限与未来方向

维度4：变量概览

维度5：局限性

维度7：可拓展的研究方向

标签

关键结论

🔗 链接到这篇笔记