Palminteri_2022_ConfirmationBias_ReinforcementLearning

更新于 2026/7/5

The Computational Roots of Positivity and Confirmation Biases in Reinforcement Learning

Authors: Stefano Palminteri, Mael Lebreton
Journal: Trends in Cognitive Sciences, Vol. 26, No. 7
Year: 2022
DOI: https://doi.org/10.1016/j.tics.2022.04.005
Type: Review Article


一句话总结

本文综述了强化学习(RL)框架下 positivity bias(对正预测误差学习更快)和 confirmation bias(对确认所选选项的反馈学习更快)的计算证据,论证这些低层级价值更新中的不对称性独立于"自利动机",并在统计意义上可能是适应性的。

研究问题

  1. 在基础的强化学习(trial-and-error)任务中,是否存在系统性的学习率不对称(positivity bias 与 confirmation bias)?
  2. 这些不对称性是否可以仅由自利/动机性解释,还是反映了更基础的计算原理?
  3. 若不对称的学习是次优的,为何在演化和发展上稳健存在?是否在某些环境下反而具有适应性?

核心贡献

  1. 理论整合: 首次将分散在认知神经科学、计算精神病学和决策科学中的 positivity bias 与 confirmation bias 证据整合到统一的 RL 框架下(Q(\alpha\pm) 和四学习率扩展模型)
  2. 方向区分: 明确提出 positivity bias(部分反馈下不可识别)与 choice-confirmation bias(完全反馈下需自由选择 × 预测误差效价 × 选项交互识别)的计算可分性
  3. 跨物种证据: 综合人类、灵长类、啮齿类的实验数据,论证不对称学习率不限于人类的自我服务动机
  4. 适应性论证: 引用 Lefebvre et al. (2022) 等模拟研究,表明确认性 RL 在多种环境下优于无偏 RL,挑战"偏差必然次优"的传统观点
  5. 方法论指南(Box 2): 系统提示 Q 值初始化、选择自相关项遗漏等会产生虚假学习率不对称的陷阱

维度1:实验设计分析

实验任务详细流程(最重要)

本文为综述文章,系统回顾了多项使用强化学习(RL)范式研究 positivity bias 和 confirmation bias 的实验。核心实验范式如下:

基本任务:Two-Armed Bandit Task(双臂老虎机任务)

  1. 选项呈现阶段(Option Presented): 被试面对两个中性视觉线索(如抽象符号),每个线索关联不同的奖励分布
  2. 选择阶段(Choice Highlighted): 被试在两个选项中选择一个
  3. 结果反馈阶段(Outcome Presented): 分为两种条件:
    • 部分反馈(Partial Feedback): 仅显示所选选项的结果(如 +1),未选选项结果用 "?" 代替
    • 完全反馈(Complete Feedback): 同时显示所选选项和未选选项的结果(如 +1 和 -1)
  4. 学习更新(隐含过程): 被试根据反馈更新对选项价值的内部估计

任务变体与条件操纵

变体 设计特征 代表研究
稳定任务(Stable Task) 选项概率/价值不变,无"正确答案" Lefebvre et al. (2017) [29]
反转任务(Reversal Task) 好坏选项在学习中途互换 多项研究 [62-64]
风险任务(Risk Task) 安全选项 vs. 风险选项(期望值相同) Box 1
波动性操纵(Volatility) 稳定 vs. 波动条件下的学习率调节 Behrens et al. (2007) [31]
奖惩性质操纵 食欲性(金钱)vs. 厌恶性(电击)结果 Gagne et al. (2020) [33]
丰贫环境 富环境(正期望值)vs. 贫环境(负期望值) Cazé & van der Meer (2013) [60]
结果范围操纵 增益域(+0.5/0.0)、损失域(0.0/-0.5)、混合域(+0.5/-0.5) Lefebvre et al. (2017) [29,30]
自由 vs. 强制选择 工具性试次(自主选择)vs. 观察性试次(电脑替选) Chambon et al. (2020) [45]
指导先验 实验前告知选项价值,操纵先验信念 Doll et al. (2009, 2011) [51,52]

关键设计逻辑

  • 部分反馈条件下:只能区分 positivity bias(正预测误差学习率 > 负预测误差学习率),无法区分是 saliency bias 还是 choice-confirmation bias
  • 完全反馈条件下:可以同时观察所选和未选选项的预测误差,从而区分 positivity bias 和 confirmation bias。若存在 confirmation bias,应表现为预测误差效价与选项(选中/未选中)之间的交互作用

其他实验设计要素

  • 被试群体: 涵盖人类成人、儿童/青少年、恒河猴(Macaca mulatta)、小鼠(Mus musculus)、大鼠(Rattus norvegicus)
  • 激励机制: 完全激励化实验,结果与实际金钱收益挂钩
  • 结果变量: 选项的选择率(choice rate)、正确率(correct response rate)、模型拟合参数(学习率等)
  • 神经影像: 部分研究使用 fMRI 记录纹状体中预测误差的神经编码;瞳孔扩张作为神经调节活动的生理指标
  • 药理操纵: 多巴胺相关药物干预(帕金森病患者、图雷特综合征患者),验证多巴胺对学习率偏差的调节作用

维度2:理论模型

基础 Q-Learning 模型

预测误差(Prediction Error):

PE(c) = R(c) - Q(c) \tag{1}

其中 R(c) 为所选选项获得的结果,Q(c) 为所选选项的主观价值估计。

价值更新规则:

Q(c) \leftarrow Q(c) + \alpha \times PE(c) \tag{2}

其中 \alpha 为学习率参数。

Positivity Bias 模型:Q(\alpha\pm)

引入正负两个学习率,根据预测误差的效价进行不对称更新:

Q(c) \leftarrow Q(c) + \begin{cases} \alpha_+ \times PE(c), & \text{if } PE(c) > 0 \\ \alpha_- \times PE(c), & \text{if } PE(c) < 0 \end{cases} \tag{3}

Positivity bias 的核心特征: \alpha_+ > \alpha_-,即对正预测误差(好消息)的学习快于负预测误差(坏消息)。

Confirmation Bias 模型("Full" Model)

在完全反馈条件下,模型扩展为四个学习率:

  • \alpha_+^{c}:所选选项的正预测误差学习率(确认性 obtained)
  • \alpha_-^{c}:所选选项的负预测误差学习率(否证性 obtained)
  • \alpha_+^{u}:未选选项的正预测误差学习率(否证性 forgone)
  • \alpha_-^{u}:未选选项的负预测误差学习率(确认性 forgone)

该四参数模型可简化为两参数确认偏差模型

  • \alpha_{CON}:确认性学习率(正 obtained + 负 forgone)
  • \alpha_{DIS}:否证性学习率(负 obtained + 正 forgone)

Choice-confirmation bias 的核心特征: \alpha_{CON} > \alpha_{DIS}

选择规则:Softmax

P(s, a_i) = \frac{e^{\beta \cdot Q(a_i)}}{\sum_j e^{\beta \cdot Q(a_j)}}

其中 \beta 为逆温度参数(inverse temperature),控制选择的随机性。

Loss Aversion vs. Loss Neglect 的计算区分

维度 Loss Aversion Loss Neglect (Confirmation Bias)
适用场景 前瞻性估值(Prospective) 回顾性估值(Retrospective)
决策类型 显式/描述性选择(Prospects) 经验学习(Trial-and-error)
关键参数 效用函数中损失域斜率 学习率中负PE的权重
方向 损失 > 收益 (overweight losses) 收益 > 损失 (neglect losses)

维度3:核心发现

1. Positivity Bias 的稳健性

  • 核心发现: 在人类的简单双臂老虎机任务中,\alpha_+ > \alpha_- 被反复验证 [23-29]
  • 模型比较: Q(\alpha\pm) 模型在严格的模型比较中优于标准 Q(\alpha) 模型 [29]
  • 结果域稳健性: 在增益域(+0.5/0.0)、损失域(0.0/-0.5)和混合域(+0.5/-0.5)中均存在,说明偏差取决于预测误差的效价而非结果本身 [29,30]
  • 跨物种证据: 恒河猴的 positivity bias 幅度甚至大于人类 (Farashahi et al. 2019 [32]);小鼠和大鼠中也有类似证据 [53,54]
  • 跨条件稳健性: 在食欲性(金钱)和厌恶性(电击)处理中均存在;在稳定和波动条件下均存在 [33]
  • 发展轨迹: 大多数研究在所有年龄组(儿童至成人)中均报告 positivity bias [55-58]

2. Confirmation Bias 的证据

  • 关键交互效应: 在完全反馈条件下,未选选项的正负学习率呈现与所选选项镜像对称的模式——四参数模型可简化为 \alpha_{CON} vs. \alpha_{DIS} 的两参数模型 [45,46]
  • Agency 的关键作用: 更新偏差仅在自由选择(工具性)试次中出现,在强制选择(观察性)试次中消失 (Chambon et al. 2020 [45])。Figure 2D-E 清晰展示了这一交互模式
  • 元分析证据: 在九个数据集中,即使控制了选择自相关(choice autocorrelation),confirmation bias 仍然可检测 [103]
  • 过度自信关联: 个体水平的 confirmation bias 与过度自信显著相关 [47,48]

3. Confirmation Bias 的适应性(模拟研究)

  • 反直觉发现: 确认性偏差的 RL 算法在多种学习环境中优于无偏差算法 (Lefebvre et al. 2022 [62])
  • 具体表现: 在"富"、"贫"、"稳定"、"波动"环境及更复杂的决策问题中,biased 算法均获得更高的平均奖励
  • 机制解释: 确认性 RL 机械地忽略非信息性的、随机的负预测误差,从而更高效地累积奖励、避免损失 [62-64]
  • 与元认知的协同: 当确认偏差与高效元认知结合时,偏差变为规范性的——因为能正确区分自己的错误与概率性负反馈 [66]

4. 神经基础

  • 多巴胺系统: 更高的多巴胺水平与更高的 positivity bias 相关 [81-84]
  • 纹状体激活: 健康被试中,positivity bias 的个体差异与奖励响应时纹状体激活的高低相关 [29]
  • D1/D2受体: 纹状体神经元的 D1(兴奋性)和 D2(抑制性)受体亚群分别介导正负强化,支持不对称更新的神经实现 [76]
  • 瞳孔扩张: 个体差异与结果呈现时的瞳孔扩张(神经调节活动指标)相关 [85]

维度6:与其他文献的关系

核心贡献

本文是首篇系统整合 positivity bias 和 confirmation bias 在强化学习框架下计算根源的综述,提出三个关键论点:

  1. 传统上被认为仅影响"高层级"信念更新的不对称性,同样存在于更基础的 RL 价值更新中
  2. 这些偏差不能仅由自利动机(self-serving)解释,因为它们跨物种、跨情境存在
  3. 确认偏差在统计意义上可能是适应性的,反直觉地提升学习表现

与相关文献的关系

文献领域 本文立场 挑战/拓展
信念更新(Sharot et al. 2011 [5]; Benabou & Tirole 2002 [15]) 不对称更新不限于高层级信念,也存在于基础 RL 挑战"self-serving"动机是唯一解释的观点
损失厌恶(Kahneman & Tversky 1979 [89]) RL中的确认偏差表现为"loss neglect",与损失厌恶方向相反 提出前瞻性估值 vs. 回顾性估值的区分来调和矛盾
计算认知建模(Wilson & Collins 2019 [100]) 强调模型设定(初始化、自相关项等)对偏差估计的关键影响 Box 2 详述了识别偏差的方法论陷阱
有界理性(Gigerenzer & Selten 2002 [61]) 确认偏差可能是一种适应性启发式 与"less is more"理念一致
现状偏差/赌博行为 确认偏差可通过过度自信和选择惯性机制解释这些现象 提供统一的计算框架

方法论警示(Box 2)

  • Q值初始化(乐观 vs. 悲观)会显著影响学习率不对称性的估计
  • 选择自相关项(choice autocorrelation)的遗漏可能产生虚假的学习率不对称
  • 安全 vs. 风险选项的对比可区分 positivity/confirmation bias 与习惯形成

未来方向(Outstanding Questions)

  1. 偏差在连续结果分布、高赌注等非标准环境下的边界条件
  2. 确认偏差的精确计算机制:是绝对高估确认信息、绝对低估否证信息,还是两者的相对失衡?
  3. 与选择性注意、选择性记忆的认知过程联系
  4. 临床应用(成瘾、病理性赌博)和社会科学应用(观点极化)

Tags: #reinforcement_learning #confirmation_bias #positivity_bias #learning_rate #computational_modeling #belief_updating #review

维度4:变量概览

类别 变量 含义
行为变量 选择率 / 正确率 偏好"好"选项的比例
模型参数 \alpha_+, \alpha_- 正/负预测误差学习率
模型参数 \alpha_{CON}, \alpha_{DIS} 确认性/否证性学习率
模型参数 \beta(逆温度) 选择随机性
环境因子 反馈类型(部分/完全) 关键识别条件
环境因子 Agency(自由 vs. 强制) 区分 confirmation 与 saliency bias
环境因子 结果域(增益/损失/混合) 验证偏差独立于结果效价
生理/神经 纹状体 BOLD、瞳孔直径、多巴胺水平 偏差的神经生物学基础
个体差异 过度自信、年龄、临床诊断 与偏差幅度的相关性

维度5:局限性

  1. 综述性质: 本文不提供新数据,依赖原始文献的有效性;部分结论(如适应性论点)基于模拟而非现场数据
  2. 任务局限: 现有证据主要来自简单二选一概率学习任务,对连续结果、高赌注、多选项、社会情境的外推性不明
  3. 识别条件苛刻: Choice-confirmation bias 仅在完全反馈 × 自由选择条件下可识别,部分反馈实验无法严格区分 positivity bias 与 saliency bias
  4. 建模混淆: Q 值初始化和选择自相关项的设定会显著影响学习率不对称的估计,存在统计陷阱
  5. 机制不清: 尚不清楚 confirmation bias 是源于对确认信号的高估、对否证信号的低估,还是两者的相对失衡;与选择性注意/记忆的边界模糊
  6. 跨物种比较: 跨物种证据虽支持基础性,但任务范式差异较大,难以严格定量比较

维度6:与其他文献的关系(双链)

维度7:可拓展的研究方向

  1. 金融决策中的 RL confirmation bias: 投资者复盘自身交易时是否高估确认性反馈、低估否证性反馈,从而维持过度自信和处置效应?
  2. 连续结果与高赌注: 将范式扩展至连续金钱回报、长期投资决策,验证偏差是否在高赌注下消失或放大
  3. 结合元认知: 同步测量被试的置信度和学习率,检验"高效元认知 + 确认偏差"的协同适应假说
  4. 临床应用: 在抑郁症、焦虑症、成瘾、病理性赌博群体中测量学习率不对称,验证为干预靶点
  5. 社会学习与极化: 将范式扩展至他人观点的更新场景,连接到信念极化、回声室效应
  6. 结合神经调节药理: 多巴胺、5-HT、去甲肾上腺素能系统对学习率不对称的特异性调控
  7. LLM/AI 学习算法: 在 AI agent 中显式植入确认性 RL,测试在何种环境下提升表现,对算法设计有启示

关键结论

  1. Positivity bias 是 RL 中的稳健现象: 跨人类、灵长类、啮齿类,跨结果域和波动条件,均观察到 \alpha_+ > \alpha_-,无法仅由自利动机解释
  2. Confirmation bias 需要 agency: 在自由选择条件下,确认性反馈学习率系统高于否证性反馈,强制选择条件下偏差消失,揭示了 agency 是关键调节变量
  3. 不对称更新可能是适应性的: 模拟显示在多种环境中,确认性 RL 优于无偏 RL,挑战"偏差必然次优"的传统观点
  4. 与损失厌恶的方向区分: RL 中的"损失忽视"(loss neglect)反映回顾性估值,而损失厌恶反映前瞻性估值,两者不矛盾而是互补
  5. 方法论警示: 学习率不对称的估计极敏感于 Q 值初始化和模型设定,研究者需谨慎进行模型比较和参数恢复检验