Palminteri_2022_ConfirmationBias_ReinforcementLearning
The Computational Roots of Positivity and Confirmation Biases in Reinforcement Learning
Authors: Stefano Palminteri, Mael Lebreton
Journal: Trends in Cognitive Sciences, Vol. 26, No. 7
Year: 2022
DOI: https://doi.org/10.1016/j.tics.2022.04.005
Type: Review Article
一句话总结
本文综述了强化学习(RL)框架下 positivity bias(对正预测误差学习更快)和 confirmation bias(对确认所选选项的反馈学习更快)的计算证据,论证这些低层级价值更新中的不对称性独立于"自利动机",并在统计意义上可能是适应性的。
研究问题
- 在基础的强化学习(trial-and-error)任务中,是否存在系统性的学习率不对称(positivity bias 与 confirmation bias)?
- 这些不对称性是否可以仅由自利/动机性解释,还是反映了更基础的计算原理?
- 若不对称的学习是次优的,为何在演化和发展上稳健存在?是否在某些环境下反而具有适应性?
核心贡献
- 理论整合: 首次将分散在认知神经科学、计算精神病学和决策科学中的 positivity bias 与 confirmation bias 证据整合到统一的 RL 框架下(Q(\alpha\pm) 和四学习率扩展模型)
- 方向区分: 明确提出 positivity bias(部分反馈下不可识别)与 choice-confirmation bias(完全反馈下需自由选择 × 预测误差效价 × 选项交互识别)的计算可分性
- 跨物种证据: 综合人类、灵长类、啮齿类的实验数据,论证不对称学习率不限于人类的自我服务动机
- 适应性论证: 引用 Lefebvre et al. (2022) 等模拟研究,表明确认性 RL 在多种环境下优于无偏 RL,挑战"偏差必然次优"的传统观点
- 方法论指南(Box 2): 系统提示 Q 值初始化、选择自相关项遗漏等会产生虚假学习率不对称的陷阱
维度1:实验设计分析
实验任务详细流程(最重要)
本文为综述文章,系统回顾了多项使用强化学习(RL)范式研究 positivity bias 和 confirmation bias 的实验。核心实验范式如下:
基本任务:Two-Armed Bandit Task(双臂老虎机任务)
- 选项呈现阶段(Option Presented): 被试面对两个中性视觉线索(如抽象符号),每个线索关联不同的奖励分布
- 选择阶段(Choice Highlighted): 被试在两个选项中选择一个
- 结果反馈阶段(Outcome Presented): 分为两种条件:
- 部分反馈(Partial Feedback): 仅显示所选选项的结果(如 +1),未选选项结果用 "?" 代替
- 完全反馈(Complete Feedback): 同时显示所选选项和未选选项的结果(如 +1 和 -1)
- 学习更新(隐含过程): 被试根据反馈更新对选项价值的内部估计
任务变体与条件操纵
| 变体 | 设计特征 | 代表研究 |
|---|---|---|
| 稳定任务(Stable Task) | 选项概率/价值不变,无"正确答案" | Lefebvre et al. (2017) [29] |
| 反转任务(Reversal Task) | 好坏选项在学习中途互换 | 多项研究 [62-64] |
| 风险任务(Risk Task) | 安全选项 vs. 风险选项(期望值相同) | Box 1 |
| 波动性操纵(Volatility) | 稳定 vs. 波动条件下的学习率调节 | Behrens et al. (2007) [31] |
| 奖惩性质操纵 | 食欲性(金钱)vs. 厌恶性(电击)结果 | Gagne et al. (2020) [33] |
| 丰贫环境 | 富环境(正期望值)vs. 贫环境(负期望值) | Cazé & van der Meer (2013) [60] |
| 结果范围操纵 | 增益域(+0.5/0.0)、损失域(0.0/-0.5)、混合域(+0.5/-0.5) | Lefebvre et al. (2017) [29,30] |
| 自由 vs. 强制选择 | 工具性试次(自主选择)vs. 观察性试次(电脑替选) | Chambon et al. (2020) [45] |
| 指导先验 | 实验前告知选项价值,操纵先验信念 | Doll et al. (2009, 2011) [51,52] |
关键设计逻辑
- 部分反馈条件下:只能区分 positivity bias(正预测误差学习率 > 负预测误差学习率),无法区分是 saliency bias 还是 choice-confirmation bias
- 完全反馈条件下:可以同时观察所选和未选选项的预测误差,从而区分 positivity bias 和 confirmation bias。若存在 confirmation bias,应表现为预测误差效价与选项(选中/未选中)之间的交互作用
其他实验设计要素
- 被试群体: 涵盖人类成人、儿童/青少年、恒河猴(Macaca mulatta)、小鼠(Mus musculus)、大鼠(Rattus norvegicus)
- 激励机制: 完全激励化实验,结果与实际金钱收益挂钩
- 结果变量: 选项的选择率(choice rate)、正确率(correct response rate)、模型拟合参数(学习率等)
- 神经影像: 部分研究使用 fMRI 记录纹状体中预测误差的神经编码;瞳孔扩张作为神经调节活动的生理指标
- 药理操纵: 多巴胺相关药物干预(帕金森病患者、图雷特综合征患者),验证多巴胺对学习率偏差的调节作用
维度2:理论模型
基础 Q-Learning 模型
预测误差(Prediction Error):
其中 R(c) 为所选选项获得的结果,Q(c) 为所选选项的主观价值估计。
价值更新规则:
其中 \alpha 为学习率参数。
Positivity Bias 模型:Q(\alpha\pm)
引入正负两个学习率,根据预测误差的效价进行不对称更新:
Positivity bias 的核心特征: \alpha_+ > \alpha_-,即对正预测误差(好消息)的学习快于负预测误差(坏消息)。
Confirmation Bias 模型("Full" Model)
在完全反馈条件下,模型扩展为四个学习率:
- \alpha_+^{c}:所选选项的正预测误差学习率(确认性 obtained)
- \alpha_-^{c}:所选选项的负预测误差学习率(否证性 obtained)
- \alpha_+^{u}:未选选项的正预测误差学习率(否证性 forgone)
- \alpha_-^{u}:未选选项的负预测误差学习率(确认性 forgone)
该四参数模型可简化为两参数确认偏差模型:
- \alpha_{CON}:确认性学习率(正 obtained + 负 forgone)
- \alpha_{DIS}:否证性学习率(负 obtained + 正 forgone)
Choice-confirmation bias 的核心特征: \alpha_{CON} > \alpha_{DIS}
选择规则:Softmax
其中 \beta 为逆温度参数(inverse temperature),控制选择的随机性。
Loss Aversion vs. Loss Neglect 的计算区分
| 维度 | Loss Aversion | Loss Neglect (Confirmation Bias) |
|---|---|---|
| 适用场景 | 前瞻性估值(Prospective) | 回顾性估值(Retrospective) |
| 决策类型 | 显式/描述性选择(Prospects) | 经验学习(Trial-and-error) |
| 关键参数 | 效用函数中损失域斜率 | 学习率中负PE的权重 |
| 方向 | 损失 > 收益 (overweight losses) | 收益 > 损失 (neglect losses) |
维度3:核心发现
1. Positivity Bias 的稳健性
- 核心发现: 在人类的简单双臂老虎机任务中,\alpha_+ > \alpha_- 被反复验证 [23-29]
- 模型比较: Q(\alpha\pm) 模型在严格的模型比较中优于标准 Q(\alpha) 模型 [29]
- 结果域稳健性: 在增益域(+0.5/0.0)、损失域(0.0/-0.5)和混合域(+0.5/-0.5)中均存在,说明偏差取决于预测误差的效价而非结果本身 [29,30]
- 跨物种证据: 恒河猴的 positivity bias 幅度甚至大于人类 (Farashahi et al. 2019 [32]);小鼠和大鼠中也有类似证据 [53,54]
- 跨条件稳健性: 在食欲性(金钱)和厌恶性(电击)处理中均存在;在稳定和波动条件下均存在 [33]
- 发展轨迹: 大多数研究在所有年龄组(儿童至成人)中均报告 positivity bias [55-58]
2. Confirmation Bias 的证据
- 关键交互效应: 在完全反馈条件下,未选选项的正负学习率呈现与所选选项镜像对称的模式——四参数模型可简化为 \alpha_{CON} vs. \alpha_{DIS} 的两参数模型 [45,46]
- Agency 的关键作用: 更新偏差仅在自由选择(工具性)试次中出现,在强制选择(观察性)试次中消失 (Chambon et al. 2020 [45])。Figure 2D-E 清晰展示了这一交互模式
- 元分析证据: 在九个数据集中,即使控制了选择自相关(choice autocorrelation),confirmation bias 仍然可检测 [103]
- 过度自信关联: 个体水平的 confirmation bias 与过度自信显著相关 [47,48]
3. Confirmation Bias 的适应性(模拟研究)
- 反直觉发现: 确认性偏差的 RL 算法在多种学习环境中优于无偏差算法 (Lefebvre et al. 2022 [62])
- 具体表现: 在"富"、"贫"、"稳定"、"波动"环境及更复杂的决策问题中,biased 算法均获得更高的平均奖励
- 机制解释: 确认性 RL 机械地忽略非信息性的、随机的负预测误差,从而更高效地累积奖励、避免损失 [62-64]
- 与元认知的协同: 当确认偏差与高效元认知结合时,偏差变为规范性的——因为能正确区分自己的错误与概率性负反馈 [66]
4. 神经基础
- 多巴胺系统: 更高的多巴胺水平与更高的 positivity bias 相关 [81-84]
- 纹状体激活: 健康被试中,positivity bias 的个体差异与奖励响应时纹状体激活的高低相关 [29]
- D1/D2受体: 纹状体神经元的 D1(兴奋性)和 D2(抑制性)受体亚群分别介导正负强化,支持不对称更新的神经实现 [76]
- 瞳孔扩张: 个体差异与结果呈现时的瞳孔扩张(神经调节活动指标)相关 [85]
维度6:与其他文献的关系
核心贡献
本文是首篇系统整合 positivity bias 和 confirmation bias 在强化学习框架下计算根源的综述,提出三个关键论点:
- 传统上被认为仅影响"高层级"信念更新的不对称性,同样存在于更基础的 RL 价值更新中
- 这些偏差不能仅由自利动机(self-serving)解释,因为它们跨物种、跨情境存在
- 确认偏差在统计意义上可能是适应性的,反直觉地提升学习表现
与相关文献的关系
| 文献领域 | 本文立场 | 挑战/拓展 |
|---|---|---|
| 信念更新(Sharot et al. 2011 [5]; Benabou & Tirole 2002 [15]) | 不对称更新不限于高层级信念,也存在于基础 RL | 挑战"self-serving"动机是唯一解释的观点 |
| 损失厌恶(Kahneman & Tversky 1979 [89]) | RL中的确认偏差表现为"loss neglect",与损失厌恶方向相反 | 提出前瞻性估值 vs. 回顾性估值的区分来调和矛盾 |
| 计算认知建模(Wilson & Collins 2019 [100]) | 强调模型设定(初始化、自相关项等)对偏差估计的关键影响 | Box 2 详述了识别偏差的方法论陷阱 |
| 有界理性(Gigerenzer & Selten 2002 [61]) | 确认偏差可能是一种适应性启发式 | 与"less is more"理念一致 |
| 现状偏差/赌博行为 | 确认偏差可通过过度自信和选择惯性机制解释这些现象 | 提供统一的计算框架 |
方法论警示(Box 2)
- Q值初始化(乐观 vs. 悲观)会显著影响学习率不对称性的估计
- 选择自相关项(choice autocorrelation)的遗漏可能产生虚假的学习率不对称
- 安全 vs. 风险选项的对比可区分 positivity/confirmation bias 与习惯形成
未来方向(Outstanding Questions)
- 偏差在连续结果分布、高赌注等非标准环境下的边界条件
- 确认偏差的精确计算机制:是绝对高估确认信息、绝对低估否证信息,还是两者的相对失衡?
- 与选择性注意、选择性记忆的认知过程联系
- 临床应用(成瘾、病理性赌博)和社会科学应用(观点极化)
Tags: #reinforcement_learning #confirmation_bias #positivity_bias #learning_rate #computational_modeling #belief_updating #review
维度4:变量概览
| 类别 | 变量 | 含义 |
|---|---|---|
| 行为变量 | 选择率 / 正确率 | 偏好"好"选项的比例 |
| 模型参数 | \alpha_+, \alpha_- | 正/负预测误差学习率 |
| 模型参数 | \alpha_{CON}, \alpha_{DIS} | 确认性/否证性学习率 |
| 模型参数 | \beta(逆温度) | 选择随机性 |
| 环境因子 | 反馈类型(部分/完全) | 关键识别条件 |
| 环境因子 | Agency(自由 vs. 强制) | 区分 confirmation 与 saliency bias |
| 环境因子 | 结果域(增益/损失/混合) | 验证偏差独立于结果效价 |
| 生理/神经 | 纹状体 BOLD、瞳孔直径、多巴胺水平 | 偏差的神经生物学基础 |
| 个体差异 | 过度自信、年龄、临床诊断 | 与偏差幅度的相关性 |
维度5:局限性
- 综述性质: 本文不提供新数据,依赖原始文献的有效性;部分结论(如适应性论点)基于模拟而非现场数据
- 任务局限: 现有证据主要来自简单二选一概率学习任务,对连续结果、高赌注、多选项、社会情境的外推性不明
- 识别条件苛刻: Choice-confirmation bias 仅在完全反馈 × 自由选择条件下可识别,部分反馈实验无法严格区分 positivity bias 与 saliency bias
- 建模混淆: Q 值初始化和选择自相关项的设定会显著影响学习率不对称的估计,存在统计陷阱
- 机制不清: 尚不清楚 confirmation bias 是源于对确认信号的高估、对否证信号的低估,还是两者的相对失衡;与选择性注意/记忆的边界模糊
- 跨物种比较: 跨物种证据虽支持基础性,但任务范式差异较大,难以严格定量比较
维度6:与其他文献的关系(双链)
- Sharot_2011_OptimismBias:高层级信念(人生事件)中的不对称更新;本文论证类似机制存在于基础 RL 中
- Benabou_Tirole_2016_MindfulEconomics_Beliefs:动机信念的经济学框架;本文挑战"自利动机"是不对称更新的唯一解释
- Benabou_2015_EconomicsMotivatedBeliefs:动机性信念综述;可与 RL 视角互补
- Charness_2017_ConfirmationBias_MotivatedBeliefs:确认偏差与动机信念的实验证据;与本文 confirmation bias 的 RL 解释互证
- Coutts_2019_GoodNewsBadNews_BeliefUpdating:好消息/坏消息的不对称更新;与 positivity bias 平行
- Thaler_GoodNews_MotivatedReasoning:好消息的动机性更新偏差
- Zimmermann_2020_DynamicsOfMotivatedBeliefs:动机信念的动态演化
- Enke_Schwerter_2020_AssociativeMemory_BeliefFormation:信念形成的认知机制
- Amelio_2022_CognitiveUncertainty_Overconfidence:与 confirmation bias 关联的过度自信
维度7:可拓展的研究方向
- 金融决策中的 RL confirmation bias: 投资者复盘自身交易时是否高估确认性反馈、低估否证性反馈,从而维持过度自信和处置效应?
- 连续结果与高赌注: 将范式扩展至连续金钱回报、长期投资决策,验证偏差是否在高赌注下消失或放大
- 结合元认知: 同步测量被试的置信度和学习率,检验"高效元认知 + 确认偏差"的协同适应假说
- 临床应用: 在抑郁症、焦虑症、成瘾、病理性赌博群体中测量学习率不对称,验证为干预靶点
- 社会学习与极化: 将范式扩展至他人观点的更新场景,连接到信念极化、回声室效应
- 结合神经调节药理: 多巴胺、5-HT、去甲肾上腺素能系统对学习率不对称的特异性调控
- LLM/AI 学习算法: 在 AI agent 中显式植入确认性 RL,测试在何种环境下提升表现,对算法设计有启示
关键结论
- Positivity bias 是 RL 中的稳健现象: 跨人类、灵长类、啮齿类,跨结果域和波动条件,均观察到 \alpha_+ > \alpha_-,无法仅由自利动机解释
- Confirmation bias 需要 agency: 在自由选择条件下,确认性反馈学习率系统高于否证性反馈,强制选择条件下偏差消失,揭示了 agency 是关键调节变量
- 不对称更新可能是适应性的: 模拟显示在多种环境中,确认性 RL 优于无偏 RL,挑战"偏差必然次优"的传统观点
- 与损失厌恶的方向区分: RL 中的"损失忽视"(loss neglect)反映回顾性估值,而损失厌恶反映前瞻性估值,两者不矛盾而是互补
- 方法论警示: 学习率不对称的估计极敏感于 Q 值初始化和模型设定,研究者需谨慎进行模型比较和参数恢复检验
🔗 链接到这篇笔记
- Bisiere_2014_RiskAttitude_BeliefsUpdating_Trades
- Camerer_1999_EWA_Learning
- Christandl_2011_PricePerception_ConfirmationBias_VAT
- Gallimore_1996_ConfirmationBias_Valuation
- GonzalezFernandez_2026_BeliefBiasIdentification
- Markovic_2015_BeliefEvolution_AttentionalFocus
- Mullainathan_2005_MarketForNews
- Peters_2022_FunctionOfConfirmationBias