The Computational Roots of Positivity and Confirmation Biases in Reinforcement Learning

Authors: Stefano Palminteri, Mael Lebreton
Journal: Trends in Cognitive Sciences, Vol. 26, No. 7
Year: 2022
DOI: https://doi.org/10.1016/j.tics.2022.04.005
Type: Review Article

一句话总结

本文综述了强化学习（RL）框架下 positivity bias（对正预测误差学习更快）和 confirmation bias（对确认所选选项的反馈学习更快）的计算证据，论证这些低层级价值更新中的不对称性独立于"自利动机"，并在统计意义上可能是适应性的。

研究问题

在基础的强化学习（trial-and-error）任务中，是否存在系统性的学习率不对称（positivity bias 与 confirmation bias）？
这些不对称性是否可以仅由自利/动机性解释，还是反映了更基础的计算原理？
若不对称的学习是次优的，为何在演化和发展上稳健存在？是否在某些环境下反而具有适应性？

核心贡献

理论整合： 首次将分散在认知神经科学、计算精神病学和决策科学中的 positivity bias 与 confirmation bias 证据整合到统一的 RL 框架下（ $Q(\alpha\pm)$ 和四学习率扩展模型）
方向区分： 明确提出 positivity bias（部分反馈下不可识别）与 choice-confirmation bias（完全反馈下需自由选择 × 预测误差效价 × 选项交互识别）的计算可分性
跨物种证据： 综合人类、灵长类、啮齿类的实验数据，论证不对称学习率不限于人类的自我服务动机
适应性论证： 引用 Lefebvre et al. (2022) 等模拟研究，表明确认性 RL 在多种环境下优于无偏 RL，挑战"偏差必然次优"的传统观点
方法论指南（Box 2）： 系统提示 Q 值初始化、选择自相关项遗漏等会产生虚假学习率不对称的陷阱

维度1：实验设计分析

实验任务详细流程（最重要）

本文为综述文章，系统回顾了多项使用强化学习（RL）范式研究 positivity bias 和 confirmation bias 的实验。核心实验范式如下：

基本任务：Two-Armed Bandit Task（双臂老虎机任务）

选项呈现阶段（Option Presented）： 被试面对两个中性视觉线索（如抽象符号），每个线索关联不同的奖励分布
选择阶段（Choice Highlighted）： 被试在两个选项中选择一个
结果反馈阶段（Outcome Presented）： 分为两种条件：
- 部分反馈（Partial Feedback）： 仅显示所选选项的结果（如 +1），未选选项结果用 "?" 代替
- 完全反馈（Complete Feedback）： 同时显示所选选项和未选选项的结果（如 +1 和 -1）
学习更新（隐含过程）： 被试根据反馈更新对选项价值的内部估计

任务变体与条件操纵

变体	设计特征	代表研究
稳定任务（Stable Task）	选项概率/价值不变，无"正确答案"	Lefebvre et al. (2017) [29]
反转任务（Reversal Task）	好坏选项在学习中途互换	多项研究 [62-64]
风险任务（Risk Task）	安全选项 vs. 风险选项（期望值相同）	Box 1
波动性操纵（Volatility）	稳定 vs. 波动条件下的学习率调节	Behrens et al. (2007) [31]
奖惩性质操纵	食欲性（金钱）vs. 厌恶性（电击）结果	Gagne et al. (2020) [33]
丰贫环境	富环境（正期望值）vs. 贫环境（负期望值）	Cazé & van der Meer (2013) [60]
结果范围操纵	增益域(+0.5/0.0)、损失域(0.0/-0.5)、混合域(+0.5/-0.5)	Lefebvre et al. (2017) [29,30]
自由 vs. 强制选择	工具性试次（自主选择）vs. 观察性试次（电脑替选）	Chambon et al. (2020) [45]
指导先验	实验前告知选项价值，操纵先验信念	Doll et al. (2009, 2011) [51,52]

关键设计逻辑

部分反馈条件下：只能区分 positivity bias（正预测误差学习率 > 负预测误差学习率），无法区分是 saliency bias 还是 choice-confirmation bias
完全反馈条件下：可以同时观察所选和未选选项的预测误差，从而区分 positivity bias 和 confirmation bias。若存在 confirmation bias，应表现为预测误差效价与选项（选中/未选中）之间的交互作用

其他实验设计要素

被试群体： 涵盖人类成人、儿童/青少年、恒河猴（Macaca mulatta）、小鼠（Mus musculus）、大鼠（Rattus norvegicus）
激励机制： 完全激励化实验，结果与实际金钱收益挂钩
结果变量： 选项的选择率（choice rate）、正确率（correct response rate）、模型拟合参数（学习率等）
神经影像： 部分研究使用 fMRI 记录纹状体中预测误差的神经编码；瞳孔扩张作为神经调节活动的生理指标
药理操纵： 多巴胺相关药物干预（帕金森病患者、图雷特综合征患者），验证多巴胺对学习率偏差的调节作用

维度2：理论模型

基础 Q-Learning 模型

预测误差（Prediction Error）：

PE(c) = R(c) - Q(c) \tag{1}

其中 $R(c)$ 为所选选项获得的结果， $Q(c)$ 为所选选项的主观价值估计。

价值更新规则：

Q(c) \leftarrow Q(c) + \alpha \times PE(c) \tag{2}

其中 $\alpha$ 为学习率参数。

Positivity Bias 模型： $Q(\alpha\pm)$

引入正负两个学习率，根据预测误差的效价进行不对称更新：

Q(c) \leftarrow Q(c) + \begin{cases} \alpha_+ \times PE(c), & \text{if } PE(c) > 0 \\ \alpha_- \times PE(c), & \text{if } PE(c) < 0 \end{cases} \tag{3}

Positivity bias 的核心特征： $\alpha_+ > \alpha_-$ ，即对正预测误差（好消息）的学习快于负预测误差（坏消息）。

Confirmation Bias 模型（"Full" Model）

在完全反馈条件下，模型扩展为四个学习率：

$\alpha_+^{c}$ ：所选选项的正预测误差学习率（确认性 obtained）
$\alpha_-^{c}$ ：所选选项的负预测误差学习率（否证性 obtained）
$\alpha_+^{u}$ ：未选选项的正预测误差学习率（否证性 forgone）
$\alpha_-^{u}$ ：未选选项的负预测误差学习率（确认性 forgone）

该四参数模型可简化为两参数确认偏差模型：

$\alpha_{CON}$ ：确认性学习率（正 obtained + 负 forgone）
$\alpha_{DIS}$ ：否证性学习率（负 obtained + 正 forgone）

Choice-confirmation bias 的核心特征： $\alpha_{CON} > \alpha_{DIS}$

选择规则：Softmax

P(s, a_i) = \frac{e^{\beta \cdot Q(a_i)}}{\sum_j e^{\beta \cdot Q(a_j)}}

其中 $\beta$ 为逆温度参数（inverse temperature），控制选择的随机性。

Loss Aversion vs. Loss Neglect 的计算区分

维度	Loss Aversion	Loss Neglect (Confirmation Bias)
适用场景	前瞻性估值（Prospective）	回顾性估值（Retrospective）
决策类型	显式/描述性选择（Prospects）	经验学习（Trial-and-error）
关键参数	效用函数中损失域斜率	学习率中负PE的权重
方向	损失 > 收益 (overweight losses)	收益 > 损失 (neglect losses)

维度3：核心发现

1. Positivity Bias 的稳健性

核心发现： 在人类的简单双臂老虎机任务中， $\alpha_+ > \alpha_-$ 被反复验证 [23-29]
模型比较： $Q(\alpha\pm)$ 模型在严格的模型比较中优于标准 $Q(\alpha)$ 模型 [29]
结果域稳健性： 在增益域（+0.5/0.0）、损失域（0.0/-0.5）和混合域（+0.5/-0.5）中均存在，说明偏差取决于预测误差的效价而非结果本身 [29,30]
跨物种证据： 恒河猴的 positivity bias 幅度甚至大于人类 (Farashahi et al. 2019 [32])；小鼠和大鼠中也有类似证据 [53,54]
跨条件稳健性： 在食欲性（金钱）和厌恶性（电击）处理中均存在；在稳定和波动条件下均存在 [33]
发展轨迹： 大多数研究在所有年龄组（儿童至成人）中均报告 positivity bias [55-58]

2. Confirmation Bias 的证据

关键交互效应： 在完全反馈条件下，未选选项的正负学习率呈现与所选选项镜像对称的模式——四参数模型可简化为 $\alpha_{CON}$ vs. $\alpha_{DIS}$ 的两参数模型 [45,46]
Agency 的关键作用： 更新偏差仅在自由选择（工具性）试次中出现，在强制选择（观察性）试次中消失 (Chambon et al. 2020 [45])。Figure 2D-E 清晰展示了这一交互模式
元分析证据： 在九个数据集中，即使控制了选择自相关（choice autocorrelation），confirmation bias 仍然可检测 [103]
过度自信关联： 个体水平的 confirmation bias 与过度自信显著相关 [47,48]

3. Confirmation Bias 的适应性（模拟研究）

反直觉发现： 确认性偏差的 RL 算法在多种学习环境中优于无偏差算法 (Lefebvre et al. 2022 [62])
具体表现： 在"富"、"贫"、"稳定"、"波动"环境及更复杂的决策问题中，biased 算法均获得更高的平均奖励
机制解释： 确认性 RL 机械地忽略非信息性的、随机的负预测误差，从而更高效地累积奖励、避免损失 [62-64]
与元认知的协同： 当确认偏差与高效元认知结合时，偏差变为规范性的——因为能正确区分自己的错误与概率性负反馈 [66]

4. 神经基础

多巴胺系统： 更高的多巴胺水平与更高的 positivity bias 相关 [81-84]
纹状体激活： 健康被试中，positivity bias 的个体差异与奖励响应时纹状体激活的高低相关 [29]
D1/D2受体： 纹状体神经元的 D1（兴奋性）和 D2（抑制性）受体亚群分别介导正负强化，支持不对称更新的神经实现 [76]
瞳孔扩张： 个体差异与结果呈现时的瞳孔扩张（神经调节活动指标）相关 [85]

维度6：与其他文献的关系

核心贡献

本文是首篇系统整合 positivity bias 和 confirmation bias 在强化学习框架下计算根源的综述，提出三个关键论点：

传统上被认为仅影响"高层级"信念更新的不对称性，同样存在于更基础的 RL 价值更新中
这些偏差不能仅由自利动机（self-serving）解释，因为它们跨物种、跨情境存在
确认偏差在统计意义上可能是适应性的，反直觉地提升学习表现

与相关文献的关系

文献领域	本文立场	挑战/拓展
信念更新（Sharot et al. 2011 [5]; Benabou & Tirole 2002 [15]）	不对称更新不限于高层级信念，也存在于基础 RL	挑战"self-serving"动机是唯一解释的观点
损失厌恶（Kahneman & Tversky 1979 [89]）	RL中的确认偏差表现为"loss neglect"，与损失厌恶方向相反	提出前瞻性估值 vs. 回顾性估值的区分来调和矛盾
计算认知建模（Wilson & Collins 2019 [100]）	强调模型设定（初始化、自相关项等）对偏差估计的关键影响	Box 2 详述了识别偏差的方法论陷阱
有界理性（Gigerenzer & Selten 2002 [61]）	确认偏差可能是一种适应性启发式	与"less is more"理念一致
现状偏差/赌博行为	确认偏差可通过过度自信和选择惯性机制解释这些现象	提供统一的计算框架

方法论警示（Box 2）

Q值初始化（乐观 vs. 悲观）会显著影响学习率不对称性的估计
选择自相关项（choice autocorrelation）的遗漏可能产生虚假的学习率不对称
安全 vs. 风险选项的对比可区分 positivity/confirmation bias 与习惯形成

未来方向（Outstanding Questions）

偏差在连续结果分布、高赌注等非标准环境下的边界条件
确认偏差的精确计算机制：是绝对高估确认信息、绝对低估否证信息，还是两者的相对失衡？
与选择性注意、选择性记忆的认知过程联系
临床应用（成瘾、病理性赌博）和社会科学应用（观点极化）

Tags: #reinforcement_learning #confirmation_bias #positivity_bias #learning_rate #computational_modeling #belief_updating #review

维度4：变量概览

类别	变量	含义
行为变量	选择率 / 正确率	偏好"好"选项的比例
模型参数	$\alpha_+, \alpha_-$	正/负预测误差学习率
模型参数	$\alpha_{CON}, \alpha_{DIS}$	确认性/否证性学习率
模型参数	$\beta$ （逆温度）	选择随机性
环境因子	反馈类型（部分/完全）	关键识别条件
环境因子	Agency（自由 vs. 强制）	区分 confirmation 与 saliency bias
环境因子	结果域（增益/损失/混合）	验证偏差独立于结果效价
生理/神经	纹状体 BOLD、瞳孔直径、多巴胺水平	偏差的神经生物学基础
个体差异	过度自信、年龄、临床诊断	与偏差幅度的相关性

维度5：局限性

综述性质： 本文不提供新数据，依赖原始文献的有效性；部分结论（如适应性论点）基于模拟而非现场数据
任务局限： 现有证据主要来自简单二选一概率学习任务，对连续结果、高赌注、多选项、社会情境的外推性不明
识别条件苛刻： Choice-confirmation bias 仅在完全反馈 × 自由选择条件下可识别，部分反馈实验无法严格区分 positivity bias 与 saliency bias
建模混淆： Q 值初始化和选择自相关项的设定会显著影响学习率不对称的估计，存在统计陷阱
机制不清： 尚不清楚 confirmation bias 是源于对确认信号的高估、对否证信号的低估，还是两者的相对失衡；与选择性注意/记忆的边界模糊
跨物种比较： 跨物种证据虽支持基础性，但任务范式差异较大，难以严格定量比较

维度6：与其他文献的关系（双链）

Sharot_2011_OptimismBias：高层级信念（人生事件）中的不对称更新；本文论证类似机制存在于基础 RL 中
Benabou_Tirole_2016_MindfulEconomics_Beliefs：动机信念的经济学框架；本文挑战"自利动机"是不对称更新的唯一解释
Benabou_2015_EconomicsMotivatedBeliefs：动机性信念综述；可与 RL 视角互补
Charness_2017_ConfirmationBias_MotivatedBeliefs：确认偏差与动机信念的实验证据；与本文 confirmation bias 的 RL 解释互证
Coutts_2019_GoodNewsBadNews_BeliefUpdating：好消息/坏消息的不对称更新；与 positivity bias 平行
Thaler_GoodNews_MotivatedReasoning：好消息的动机性更新偏差
Zimmermann_2020_DynamicsOfMotivatedBeliefs：动机信念的动态演化
Enke_Schwerter_2020_AssociativeMemory_BeliefFormation：信念形成的认知机制
Amelio_2022_CognitiveUncertainty_Overconfidence：与 confirmation bias 关联的过度自信

维度7：可拓展的研究方向

金融决策中的 RL confirmation bias： 投资者复盘自身交易时是否高估确认性反馈、低估否证性反馈，从而维持过度自信和处置效应？
连续结果与高赌注： 将范式扩展至连续金钱回报、长期投资决策，验证偏差是否在高赌注下消失或放大
结合元认知： 同步测量被试的置信度和学习率，检验"高效元认知 + 确认偏差"的协同适应假说
临床应用： 在抑郁症、焦虑症、成瘾、病理性赌博群体中测量学习率不对称，验证为干预靶点
社会学习与极化： 将范式扩展至他人观点的更新场景，连接到信念极化、回声室效应
结合神经调节药理： 多巴胺、5-HT、去甲肾上腺素能系统对学习率不对称的特异性调控
LLM/AI 学习算法： 在 AI agent 中显式植入确认性 RL，测试在何种环境下提升表现，对算法设计有启示

关键结论

Positivity bias 是 RL 中的稳健现象： 跨人类、灵长类、啮齿类，跨结果域和波动条件，均观察到 $\alpha_+ > \alpha_-$ ，无法仅由自利动机解释
Confirmation bias 需要 agency： 在自由选择条件下，确认性反馈学习率系统高于否证性反馈，强制选择条件下偏差消失，揭示了 agency 是关键调节变量
不对称更新可能是适应性的： 模拟显示在多种环境中，确认性 RL 优于无偏 RL，挑战"偏差必然次优"的传统观点
与损失厌恶的方向区分： RL 中的"损失忽视"（loss neglect）反映回顾性估值，而损失厌恶反映前瞻性估值，两者不矛盾而是互补
方法论警示： 学习率不对称的估计极敏感于 Q 值初始化和模型设定，研究者需谨慎进行模型比较和参数恢复检验

Palminteri_2022_ConfirmationBias_ReinforcementLearning

The Computational Roots of Positivity and Confirmation Biases in Reinforcement Learning

一句话总结

研究问题

核心贡献

维度1：实验设计分析

实验任务详细流程（最重要）

基本任务：Two-Armed Bandit Task（双臂老虎机任务）

任务变体与条件操纵

关键设计逻辑

其他实验设计要素

维度2：理论模型

基础 Q-Learning 模型

Positivity Bias 模型： $Q(\alpha\pm)$

Confirmation Bias 模型（"Full" Model）

选择规则：Softmax

Loss Aversion vs. Loss Neglect 的计算区分

维度3：核心发现

1. Positivity Bias 的稳健性

2. Confirmation Bias 的证据

3. Confirmation Bias 的适应性（模拟研究）

4. 神经基础

维度6：与其他文献的关系

核心贡献

与相关文献的关系

方法论警示（Box 2）

未来方向（Outstanding Questions）

维度4：变量概览

维度5：局限性

维度6：与其他文献的关系（双链）

维度7：可拓展的研究方向

关键结论

🔗 链接到这篇笔记

Palminteri_2022_ConfirmationBias_ReinforcementLearning

The Computational Roots of Positivity and Confirmation Biases in Reinforcement Learning

一句话总结

研究问题

核心贡献

维度1：实验设计分析

实验任务详细流程（最重要）

基本任务：Two-Armed Bandit Task（双臂老虎机任务）

任务变体与条件操纵

关键设计逻辑

其他实验设计要素

维度2：理论模型

基础 Q-Learning 模型

Positivity Bias 模型：Q(\alpha\pm)

Confirmation Bias 模型（"Full" Model）

选择规则：Softmax

Loss Aversion vs. Loss Neglect 的计算区分

维度3：核心发现

1. Positivity Bias 的稳健性

2. Confirmation Bias 的证据

3. Confirmation Bias 的适应性（模拟研究）

4. 神经基础

维度6：与其他文献的关系

核心贡献

与相关文献的关系

方法论警示（Box 2）

未来方向（Outstanding Questions）

维度4：变量概览

维度5：局限性

维度6：与其他文献的关系（双链）

维度7：可拓展的研究方向

关键结论

🔗 链接到这篇笔记

Positivity Bias 模型： $Q(\alpha\pm)$