Experimentation with Self-Serving Attribution Biases

元数据

作者: Nina Hestermann, Yves Le Yaouanq
期刊: American Economic Journal: Microeconomics
年份: 2021
卷期: Vol. 13, No. 3, pp. 198-237
DOI: https://doi.org/10.1257/mic.20180326
JEL分类: D11, D83, D91
关键词: 过度自信, 自利归因偏差, 实验行为, 贝叶斯学习, 信念更新, 识别问题

一句话总结

本文构建了一个动态贝叶斯学习模型，证明在两维不确定性（个体能力 $\theta$ 与环境质量 $\lambda$ ）下，过度自信者会将成功归因于自身、将失败归因于环境（自利归因偏差），从而比理性者更频繁地"实验/换环境"，并使过度自信在长期具有自我纠正性，而不自信则是自我确认的（self-confirming）。

研究问题

在贝叶斯框架内，无需假设非理性更新规则，过度自信能否内生地产生自利归因偏差（self-serving attribution bias, SSAB）？
个体的固有能力 $\theta$ 与外部环境质量 $\lambda$ 不可分识别（identification problem）时，先验偏差如何向两个维度传播？
生产函数 $p(\lambda,\theta)$ 的何种数学性质（log-supermodularity vs. log-submodularity）决定归因偏差的方向？
过度自信与不自信在长期是否对称？两者对实验/探索行为（experimentation）和最终福利的影响有何不同？
为什么实证文献中过度自信比不自信更常见？

核心贡献

理论贡献（建模创新）：首次将SSAB从心理学描述转化为贝叶斯推断的内生结果——过度自信者并不偏离贝叶斯规则，但因 $\theta$ 与 $\lambda$ 的识别问题而将成功更多归因于 $\theta$ 、失败更多归因于 $\lambda$ 。
数学框架贡献：精确刻画 log-supermodular（互补）vs. log-submodular（替代）的生产函数特性如何决定归因偏差方向（Proposition 1, Corollary 1）。
不对称性结果：证明过度自信（自我纠正、概率1达到最优）与不自信（自我确认、正概率永久次优）的根本不对称（Proposition 5–6），为实证中过度自信更常见提供选择性解释。
方法论贡献：将多臂老虎机（two-armed bandit）实验/最优停止框架扩展到双参数同时影响所有臂的环境，刻画过度自信对探索强度的影响（Proposition 4）。
实证启示：解释了为何稳定环境中无限观察也无法消除归因偏差（Proposition 2），而变化环境能使学习完全（Proposition 3），为实证研究设计提供识别策略。

维度1：模型设定

研究性质

本文是一篇纯理论论文，不包含实验室实验或田野实验。作者构建了一个动态决策模型，用数学推导代替实验数据。

模型设定（"实验任务"等价物）

基本环境：

一个个体在无限期中重复执行一项任务，每期获得二元结果（成功/失败）
成功概率 p(\lambda, \theta) 取决于两个变量：
- $\theta$ ：个体的固有能力（intrinsic ability），支撑区间 $\Theta = [\underline{\theta}, \bar{\theta}]$
- $\lambda$ ：外部环境质量参数（task-specific），支撑区间 $\Lambda = [\underline{\lambda}, \bar{\lambda}]$
$\theta$ 和 $\lambda$ 独立分布，结果条件独立
$p_\lambda > 0$ , $p_\theta > 0$ ：成功概率随能力和环境质量递增

两个个体的比较：

个体1和个体2对 $\lambda$ 的先验分布相同（ $g_0$ ），但对 $\theta$ 的先验不同
$f_{0,1} \succeq f_{0,2}$ （单调似然比排序）：个体1比个体2更自信
两者均使用贝叶斯规则更新信念

两阶段分析：

第一阶段——被动学习（Section II）：

环境固定（ $\lambda$ 不变），个体在稳定环境中重复执行任务
观察成功/失败序列后，用贝叶斯规则更新对 $\theta$ 和 $\lambda$ 的信念
核心识别问题：多组 $(\lambda, \theta)$ 配对可以产生相同的成功率 $p$ ，导致无法分离两个参数

第二阶段——主动实验（Section III）：

每期个体选择：留在当前环境（arm 1）或切换到新的随机环境（arm 2）
切换不可逆（离开后不能返回）
等价于一个双臂老虎机问题（two-armed bandit）
个体是风险中性的，最大化折现收益之和（折现因子 $\delta < 1$ ）
环境只有两种类型：有利（ $\lambda = \bar{\lambda}$ ）或不利（ $\lambda = \underline{\lambda}$ ），概率分别为 $\nu$ 和 $1-\nu$

生产函数的关键分类：

Log-submodular (log-sbm)： $p_{\lambda\theta} p \leq p_\lambda p_\theta$ ，能力和环境质量是替代品
Log-supermodular (log-spm)： $p_{\lambda\theta} p \geq p_\lambda p_\theta$ ，能力和环境质量是互补品
这一分类决定了归因偏差的方向

应用场景举例

工人评估自身技能 vs. 工作环境质量
经理评估自身能力 vs. 员工能力
学生评估自身学术能力 vs. 教学环境
CEO过度自信与公司投资决策

维度2：主要结果

核心模型框架

成功概率函数：
$ $p(\lambda, \theta) \in C^2, \quad p_\lambda > 0, \quad p_\theta > 0$ $

贝叶斯更新（后验密度）：
$ $f_{t,h_t,i}(\theta) = \frac{f_{0,i}(\theta) \prod_{j=1}^{m_t} \int_\Lambda \mathcal{L}_{t_j,n_j}(\lambda_j, \theta) \, dG_0(\lambda_j)}{\int_\Theta dF_{0,i}(\theta') \prod_{j=1}^{m_t} \int_\Lambda \mathcal{L}_{t_j,n_j}(\lambda_j, \theta') \, dG_0(\lambda_j)}$ $

其中标准化似然函数为：
$ $\mathcal{L}_{t,n}(\lambda, \theta) = p(\lambda, \theta)^n \big(1 - p(\lambda, \theta)\big)^{t-n}$ $

自利归因偏差的形式化定义（Definition 1）：
个体1相对于个体2在历史 $(n_t, t)$ 后表现出自利归因偏差，当且仅当：
$ $\tilde{f}_{t,n_t,1} \succeq \tilde{f}_{t,n_t,2}$ $
即过度自信的个体高估了（在相同条件下获得相同结果的）他人的能力。

关键命题

Proposition 1（归因偏差的方向）：

(i) 若 $p$ 和 $1-p$ 均为 log-sbm $\Rightarrow$ 过度自信者总是低估环境质量
(ii) 若 $p$ 严格 log-spm $\Rightarrow$ 失败后低估环境、成功后高估环境
(iii) 若 $1-p$ 严格 log-spm $\Rightarrow$ 失败后高估环境、成功后低估环境

Corollary 1（自利归因偏差）：
当 $p_{\lambda\theta}p - p_\lambda p_\theta$ 和 $p_{\lambda\theta}(1-p) + p_\lambda p_\theta$ 符号恒定时，存在 $\alpha_2, \beta_2 \in (0,1)$ ，使得在极端成功率（ $n_t/t \geq \alpha_2$ 或 $n_t/t \leq \beta_2$ ）条件下，过度自信者展现自利归因偏差。

Proposition 2（稳定环境中的被动学习极限）：
$\lambda$ 固定时，两个个体都学会了真实成功率，但：

(i) $K_{\infty,1} = K_{\infty,2} = \delta_{p(\lambda^*,\theta^*)}$ （成功率收敛）
(ii) $g_{\infty,1} \preceq g_{\infty,2}$ （过度自信者持续低估环境质量）
(iii) $f_{\infty,1} \succeq f_{\infty,2}$ （过度自信者持续高估自身能力）

Proposition 3（变化环境中的被动学习）：
若 $\lambda$ 每 $m$ 期重新抽取，且 $\theta^* \in (\underline{\theta}, \bar{\theta})$ ，则两个个体在长期都学会真实能力，过度自信被完全消除。

Proposition 4（近视行为下的实验决策）：
$\delta = 0$ 时，过度自信者比理性决策者实验更多（更频繁切换环境），而不自信者实验更少。

Proposition 5（核心结果——长期不对称性）：
当 $0 \leq \delta < 1$ 时：

(i) 过度自信或理性个体：实验几乎必然成功（概率1最终停留在好环境 $\bar{\lambda}$ ）
(ii) 不自信个体：正概率永远停留在不利环境，获得次优回报

Proposition 6（比较静态）：

(i) 长期过度自信有上界： $\exists \mu_1 \in (0,1)$ 使得 $\lim_{t \to \infty} f_{t,1}(\theta_j) > \mu_1$
(ii) 长期不自信无上界： $\forall \mu_2 \in (0,1)$ ，存在先验使 $\lim_{t \to \infty} f_{t,2}(\theta_j) \leq \mu_2$

价值函数（Bellman方程）

V(A) = \max\Big[p(A) + \delta p(A) V(\psi A) + \delta\big(1 - p(A)\big) V(\phi A), \; V(hA)\Big]

其中 $\psi A$ 和 $\phi A$ 分别为成功和失败后的更新信念， $hA$ 为切换到新环境后的信念。

维度3：数值分析与校准

本文为纯理论论文，无实验数据或effect size

但其理论预测可量化为以下结论：

理论预测	形式化结果	含义
过度自信导致自利归因	Corollary 1	成功归因于自身，失败归因于环境（当 $p$ 为 log-spm 时）
稳定环境中学习不完全	Proposition 2	即使无限观察， $\theta$ 和 $\lambda$ 的信念仍有偏
变化环境消除偏差	Proposition 3	环境变动提供识别信息，使学习完全
过度自信促进实验	Proposition 4	过度自信者更频繁切换（explore more）
长期不对称性	Proposition 5	过度自信自我纠正（概率1），不自信自我确认（正概率被困）
不自信的福利损失更大	Proposition 5 + 6	不自信者可能永久获得次优回报，而过度自信者最终达到最优

与实证文献的联系

模型预测与田野证据一致：过度自信比不自信更常见（Malmendier and Tate 2005），因为过度自信是自我纠正的
不自信个体可能因自选择而从样本中消失（解释了为何实证研究中过度自信更普遍）
Deffains, Espinosa, and Thoni (2016) 的实验证据支持 Corollary 1 的预测：成功者倾向选择更低的再分配水平

维度5：与其他文献的关系

本文在文献中的位置

所属领域： 行为经济学 / 信息经济学交叉领域

核心贡献：

首次将自利归因偏差（self-serving attribution bias）从心理学概念转化为贝叶斯推断的内生结果，而非偏离理性的假设
将归因偏差与生产函数的数学特性（log-supermodularity/submodularity）精确关联
揭示过度自信与不自信在长期的根本不对称性：过度自信是暂时的（self-correcting），不自信是持久的（self-confirming）

与关键文献的关系：

文献	关系
Van den Steen (2004)	首先指出过度自信与归因偏差的联系；本文推广到非参数框架，识别出生产函数的关键特性
Heidhues, Koszegi, and Strack (2018)	独立研究过度自信对学习的扭曲；但他们假设个体给真实能力赋概率1（misspecified model），本文允许正概率先验
Rabin and Schrag (1999)	确认偏差模型，偏离贝叶斯更新；本文坚持贝叶斯框架
Benabou and Tirole (2002)	自信的动机性维护；本文关注推断而非动机
Grossman and Owens (2012)	实验证明带偏先验的个体做出看似有偏的推断——本文提供理论基础
Banks and Sundaram (1992)	标准多臂老虎机实验框架；本文扩展为两个不确定参数同时影响所有臂
Gervais and Odean (2001)	金融市场中自利归因导致过度自信；本文方向相反——过度自信导致归因偏差

研究范式： 理论建模（动态贝叶斯学习 + 最优停止/实验问题）

对后续研究的启示

社会学习（观察他人结果）能否缓解识别问题
委托代理框架下的信息设计（利用/对抗归因偏差）
实验验证：设计实验测试过度自信者是否真的更频繁"换环境"以及不自信者是否被"困住"

维度4：局限性

纯理论而无实验/田野验证：所有命题均为数学推导，缺乏针对核心预测（不自信者被困于不利环境的概率、过度自信者实验更多的频率）的直接行为实验或田野证据。
二元结果假设：成功/失败的二元结果限制了对连续型表现（如收益率、产量）的应用；扩展到连续结果可能改变识别问题的性质。
环境切换的不可逆性：双臂老虎机假设切换不可返回，实际经济环境往往允许双向流动；作者声称可放松此假设，但未给出严格证明。
风险中性与折现：忽略了风险偏好对实验决策的影响；不同风险偏好可能与归因偏差交互。
无社会学习与战略互动：未考虑个体观察他人结果（社会学习）或战略性传递信号（如委托代理框架）如何缓解或加剧识别问题。
不变的真实参数 $\theta^*, \lambda^*$ ：忽略能力随时间提升（learning-by-doing）或环境随机演化的动态。
先验差异的外生性：将"过度自信"作为先验差异处理，未解释先验本身如何形成（如成长经历、文化、激励）。
未涉及福利与政策含义的定量化：虽指出不自信者福利损失更大，但未给出福利损失的可测量化或政策干预（如信息提供、外部反馈）的设计建议。

维度6：可拓展的研究方向

实验验证核心预测：设计行为实验测试两条核心预测——(a) 不自信被试是否在双臂老虎机中正概率被困于不利臂；(b) 过度自信被试是否更频繁地选择切换。可与 Coutts_Gerhards_2024_SelfServingAttributionBias 的实验设计对话。
社会学习与归因：当个体可观察他人结果时，识别问题是否被缓解？过度自信者会否系统性地低估同侪信息？可与 Enke_Zimmermann_2019_CorrelationNeglect_BeliefFormation 关联。
委托代理与信息设计：经理对员工能力的归因偏差如何影响最优契约/反馈策略；雇主的归因偏差如何影响晋升与解雇决策。
金融市场应用：将 $\lambda$ 解释为市场环境/系统性风险， $\theta$ 解释为投资技能，预测过度自信投资者的过度交易（与 Hoffmann_2016_InvestorConfidence_Trading、Daniel_Hirshleifer_2015_Overconfident_Returns_Trading 对话）。
CEO投资决策：将本模型应用于 Malmendier and Tate 风格的CEO过度自信研究，预测CEO在何种行业（log-spm vs. log-sbm）会表现不同的归因模式。
连续结果与时变参数：扩展到连续结果（如收益率）、时变能力（learning-by-doing）和动态环境，检验长期不对称性结论的稳健性。
激励性信念（motivated beliefs）的混合模型：结合 Benabou_2015_EconomicsMotivatedBeliefs、Benabou_Tirole_2016_MindfulEconomics_Beliefs 的动机性自信维护机制，与本文的纯贝叶斯识别机制对比，区分"故意有偏"与"理性误识"两种来源。
政策实验：测试外部反馈/教练（如绩效评估、客观基准）能否打破不自信的自我确认陷阱。
跨文化比较：归因偏差的方向是否随文化（个人主义 vs. 集体主义）系统性变化。
与确认偏差的区分：与 Charness_2017_ConfirmationBias_MotivatedBeliefs 等确认偏差文献对话，识别两种偏差在动态实验数据中的可分离性。

个人评价与笔记

方法论亮点

不需要假设非理性更新规则，仅靠先验差异 + 贝叶斯规则 + 二维不确定性即产生归因偏差
Log-spm/log-sbm 的分类极为优雅，统一了看似矛盾的归因模式

局限性

纯理论论文，缺乏直接实验验证
二元结果假设（成功/失败）限制了应用范围
环境切换不可逆的假设较强（虽然作者声称可放松）
未考虑战略互动和社会学习

与我的研究的联系

提供了一个将信念偏差（过度自信）与行为后果（实验/探索）联系起来的理论框架
关于"不自信是自我确认的"这一结论，对理解为何某些偏差持久存在非常有启发
对研究信念更新中的归因问题提供了严格的数学工具（log-spm/sbm分类）

关键结论

自利归因偏差是贝叶斯学习的内生结果：当能力 $\theta$ 与环境 $\lambda$ 联合不可分识别时，先验过度自信的个体会以贝叶斯方式得出"成功是因为我能力强、失败是因为环境差"的归因模式，无需偏离贝叶斯规则。
生产函数的对偶分类决定归因方向：当 $p$ 是 log-supermodular（能力与环境互补）时，过度自信者失败后低估环境、成功后高估环境；当 log-submodular（替代）时则总是低估环境。
稳定环境下学习不完全：在固定 $\lambda$ 中无限观察，两个个体都学到真实成功率 $p(\lambda^*, \theta^*)$ ，但对 $\theta$ 与 $\lambda$ 的边际信念仍然有偏；过度自信者持续高估自己、低估环境。
变化环境消除偏差：若 $\lambda$ 周期性地重新抽取，长期下学习完全，过度自信被消除（Proposition 3）。
过度自信促进探索/实验：近视决策（ $\delta=0$ ）下，过度自信者比理性者更频繁地切换到新环境，不自信者更不愿尝试（Proposition 4）。
长期根本不对称性：过度自信者（与理性者）几乎必然实验成功、收敛于最优环境；不自信者以正概率永久停留在不利环境（Proposition 5）。
不自信无上界、过度自信有上界：长期信念的偏差存在不对称约束——过度自信被实验经验限制，不自信则可任意大（Proposition 6）。
解释实证规律：过度自信比不自信更常见，部分原因在于不自信者通过自我确认陷阱被"淘汰"出可观察样本（self-selection），与Malmendier & Tate (2005)等田野证据一致。
方法论启示：将"识别问题"作为偏差产生的内在机制，为分析多维不确定性下的信念形成提供了新工具。

Hestermann_2021_Experimentation_SelfServingAttribution