Charness_Levin_BayesianUpdating_OptimalChoices

更新于 2026/7/5

When Optimal Choices Feel Wrong: A Laboratory Study of Bayesian Updating, Complexity, and Affect

一句话总结

通过精心设计的两罐抽球实验,让贝叶斯更新与强化学习的指引方向系统性冲突,发现当二者一致时几乎所有人都贝叶斯,而冲突时约一半决策违反贝叶斯——情感(特别是成功带来的正面情感)而非任务复杂性,是偏离贝叶斯更新的关键驱动因素。

研究问题

当贝叶斯更新所要求的最优行动与"赢就留、输就换"的强化学习直觉相互冲突时,决策者会偏离哪一边?这种偏离主要源自贝叶斯计算的复杂性(cognitive complexity),还是源自正负结果引发的情感反应(affect)?是否能通过实验设计将这两个机制分离开?

核心贡献

  1. 任务设计原创:构造了一个贝叶斯更新与强化学习指引方向完全相反的两罐抽球任务(从Left罐起始时,抽到黑球应转换至Right罐,抽到白球应留在Left罐),使两类启发式的相对作用首次可被直接对比。
  2. 三重处理分离机制:Treatment 1为基础任务、Treatment 2简化贝叶斯计算(降低complexity)、Treatment 3强制起始且首次抽取不计酬(消除affect),用对比识别情感是关键。
  3. 关键结果:Right起始(无冲突)错误率<6%,Left起始(有冲突)错误率约48%,且简化复杂性几乎不降错误率,但消除情感后黑球(成功)后的错误率从36.8%骤降至13.5%。
  4. 理论建议:强化学习模型应纳入"基于感觉的强化"(sensation-based reinforcement),将情感反馈作为支付的一部分;同时为401(k)资产配置中投资者对正向财富冲击不敏感等现象提供解释。

维度1:实验设计分析

基本信息

  • 作者: Gary Charness, Dan Levin
  • 发表时间: 2003年10月24日 (UC Santa Barbara Departmental Working Paper)
  • 关键词: Bayesian updating, Reinforcement, Affect, Experimental economics
  • JEL分类: B49, C91, D81, D89

一、核心研究问题与贡献

研究问题

当贝叶斯更新(Bayesian updating)所指引的最优选择与强化学习(reinforcement)的直觉相冲突时,人们的决策会如何偏离理性?复杂性(complexity)和情感(affect)分别在偏离中扮演什么角色?

核心贡献

  1. 首次实验性地构造贝叶斯更新与强化启发式相互冲突的决策环境,观察二者碰撞时的行为模式
  2. 发现当两种启发式一致时,几乎所有人都按预期行动;但当二者冲突时,约50%的决策违反贝叶斯规则
  3. 通过三个处理组的对比实验,分离了复杂性和情感对偏差的贡献:情感(尤其是正面情感)是驱动偏离贝叶斯更新的关键因素,而单纯降低复杂性并不能有效减少错误率
  4. 发现个体间存在显著的行为异质性,可识别不同的"强化类型";跨期强化倾向与期内转换错误之间存在正相关

二、实验设计与流程(重点)

基本设定

  • 实验地点: UCSB校园,基于网络的实验
  • 参与流程: 参与者在实验室集合,先阅读并回答纸质说明中的问题,然后登录网页完成实验;网页包含详细操作指引及理解测试题(必须正确回答才能继续)

核心任务结构(两罐球抽取任务)

  • 世界状态: 两种等概率状态——"好状态"(Up, p=0.5) 和 "坏状态"(Down, p=0.5)
  • 两个彩票(罐子): Left罐和Right罐,各含黑球和白球的不同组合
    • Treatment 1的罐子组成:
      • Up状态: Left罐 = 4黑2白; Right罐 = 6黑
      • Down状态: Left罐 = 3黑3白; Right罐 = 6白
    • 只有黑球有价值;从Left罐抽到黑球获1单位报酬,从Right罐抽到黑球获7/6单位报酬
  • 决策流程: 参与者不知道真实状态,先从某一罐中抽取一个球(有放回),观察结果后选择从哪个罐子进行第二次抽取

贝叶斯最优策略(BEU)的反直觉性

  • 从Right罐开始抽: 第一次抽取完美揭示世界状态(抽到黑球=Up状态,白球=Down状态),因此转换决策简单且符合直觉
  • 从Left罐开始抽(关键冲突点):
    • 抽到黑球(成功/好结果)-> BEU要求转换到Right罐(因为黑球暗示Up状态更可能,Right罐在Up状态下全是黑球)
    • 抽到白球(失败/坏结果)-> BEU要求留在Left罐(因为白球暗示Down状态更可能,Left罐在Down状态仍有3/6概率获得回报,而Right罐在Down状态回报为0)
    • 这与强化学习的直觉完全相反:强化学习会让人在成功后留下("赢了就继续"),失败后转换

三个阶段设计

  • Phase I (期1-20): 强制交替起始罐(奇数期从Left,偶数期从Right),让参与者熟悉各种策略和结果
  • Phase II (期21-50): 参数不变,参与者自由选择两次抽取的罐子
  • Phase III (期51-60): 反转报酬(Left罐黑球=7/6单位,Right罐黑球=1单位),此时BEU最优策略变为从Left开始且始终留在Left

Treatment 2(降低复杂性)

  • 参与者: 54人,平均收入$22.06
  • 唯一改变: Down状态的Left罐从3黑3白变为2黑4白
    • 使Left罐在Up和Down状态下的信息更对称: Pr[Up|黑球] = Pr[Down|白球] = 2/3
    • 大幅简化了贝叶斯推断的计算
  • 其余设计与Treatment 1完全相同
  • 目的: 检验降低更新任务的复杂性能否减少转换错误

Treatment 3(去除情感/affect)

  • 参与者: 52人,平均收入$17.82
  • 罐子组成与Treatment 2相同
  • 关键改变:
    • 全程强制从Left罐开始第一次抽取
    • 第一次抽取的结果不计入报酬,且抽取时不知道哪个颜色代表"成功"
    • 参与者观察结果后被告知(随机的)成功颜色,再选择第二次抽取的罐子
    • 由此去除了第一次抽取带来的"赢/输"的情感反应,同时保留了相同的信息内容
  • 目的: 检验情感是否是导致偏离贝叶斯更新的关键因素
  • 共70个期(Phase I: 期1-20强制Left; Phase II: 期21-70有支付反转)

报酬机制

  • 1实验单位 = $0.30
  • Treatment 1: 59人,平均收入$23.14,平均时长约40分钟
  • Treatment 2: 54人,平均收入$22.06
  • Treatment 3: 52人,平均收入$17.82

四个假设

  • H1: 从Left罐开始抽取后的转换错误率高于从Right罐开始后的错误率(因为Left引发两种启发式冲突)
  • H2: Treatment 2中从Left开始的转换错误率低于Treatment 1(因为复杂性降低)
  • H3: Treatment 2中自愿选择Left开始的比例低于Treatment 1(因为Left在Treatment 2中吸引力更低)
  • H4: Treatment 3中从Left开始的转换错误率低于Treatment 2(因为情感被消除)

三、主要发现

核心结果

  1. Right罐起始后错误率极低: Treatment 1中仅4.4%,Treatment 2中仅5.3%(此时BEU与强化一致)
  2. Left罐起始后错误率极高: Treatment 1的Phase I-II中高达48.1%,Treatment 2中同样约48.1%(此时BEU与强化冲突)
  3. 黑球后错误率远高于白球后: Treatment 1中Left罐抽到黑球后的错误率(59.4%)几乎是白球后(33.8%)的两倍——正面情感(成功)的干扰更强

假设检验结果

假设 结果 说明
H1 (Left后错误 > Right后错误) 强烈支持 113人中111人Left后错误率更高 (Z=10.44, p=0.000)
H2 (降低复杂性减少Left后错误) 不支持 Treatment 1和2的转换错误率几乎相同
H3 (Treatment 2中Left起始更少) 支持 Left选择在所有比较中都更少
H4 (去除情感减少Left后错误) 支持 黑球后错误率从36.8%降至13.5%(降幅63%); 白球后从55.7%降至42.4%(降幅24%)

复杂性厌恶(Complexity Aversion)

  • 人们倾向于做出代价高昂的初始选择(选Right开始)来规避后续决策的不确定性/复杂性
  • Phase II中约72-78%的人选择从Right开始(BEU也预测从Right开始,但即使Phase III中从Left开始接近最优,仍有54-63%的人选Right)

错误不随时间减少

  • 转换错误率在Phase II的三个10期时段中基本持平甚至略有上升(如Treatment 1中LB错误: 60.4% -> 61.4% -> 77.8%)
  • 说明收益层面的强化学习并未有效纠正行为

错误成本与频率的关系

  • 错误的预期成本越高,犯该错误的频率越低
  • 每个成本超过0.30的错误发生频率低于5%,每个成本低于0.30的错误发生频率超过11%

性别差异

  • 24种可能错误中,女性在20种中错误率更高(二项检验 p=0.002)
  • 强化启发式对女性参与者的影响相对更强

个体异质性与"强化类型"

  • 约26%的参与者在Phase II的30个期中从未改变初始抽取的位置
  • 其余参与者中,85%表现出强化倾向(前期成功越少,越可能转换起始罐)
  • 跨期强化行为与期内转换错误(尤其是白球后的错误)呈显著正相关(Spearman相关系数显著)
  • Treatment 3中去除情感后,跨期与期内行为的相关性消失

回归分析确认

  • OLS和随机效应模型均显示:错误频率显著受到成本(负向)、Left起始(正向)、情感(正向)、女性(正向)的影响
  • 所有系数在p=0.01水平显著

四、启示与局限

理论启示

  1. 强化学习模型需要纳入情感: 强化的力量很大程度上来自结果引发的心理情感,而非单纯的收益考量;建议将"感觉层面的强化"(sensation-based reinforcement)纳入模型的"报酬"概念中
  2. 贝叶斯更新与强化学习通常一致: 在大多数现实场景中两种启发式方向相同,因此单靠强化也能做出不错的决策;但在二者冲突时,可预期显著的次优行为
  3. 复杂性本身并非主因: 简化贝叶斯计算并不减少错误,暗示问题不在于认知计算能力,而在于情感干扰
  4. 实际应用(如投资决策): 投资者的自身投资经历(正面/负面情感)会影响后续投资组合选择;自主选择投资组合的人比观察者更易受情感驱动——可解释401k投资中投资者对正向财富冲击的异常不敏感现象

局限性

  1. 实验环境相对简单(二罐球任务),与现实世界复杂决策仍有距离
  2. 未能控制参与者的统计素养、专业背景等个体特征(仅事后收集了性别信息)
  3. 风险厌恶虽经CRRA效用函数分析表明不改变核心结论,但未直接测量个体风险偏好
  4. 样本为UCSB大学生,外部效度需进一步验证
  5. 实验中强制起始罐(Phase I)可能与自愿选择(Phase II)的情感反应强度不同,引入了Phase间比较的混杂因素

与其他文献的联系

  • 与Kahneman & Tversky的代表性启发式研究相呼应,但聚焦于启发式冲突而非单纯的偏差测量
  • 与Grether (1980, 1992)关于个体忽略先验概率的发现一致
  • 对强化学习模型(Roth & Erev 1995; Camerer & Ho 1998, 1999)提出了纳入情感维度的改进建议
  • 与Samuelson & Zeckhauser (1988)的现状偏差一致:人们在涉及风险时不愿做出改变

相关标签

#贝叶斯更新 #强化学习 #情感 #实验经济学 #决策偏差 #复杂性厌恶 #行为异质性

维度2:理论模型

贝叶斯期望效用基准(BEU)

基于先验 P(\text{Up})=P(\text{Down})=1/2 和球颜色信号的似然,计算后验状态概率:
$P(\text{Up}\mid \text{black from Left}) = \frac{P(\text{black}\mid\text{Up,Left})\cdot 0.5}{P(\text{black}\mid\text{Up,Left})\cdot 0.5 + P(\text{black}\mid\text{Down,Left})\cdot 0.5}$
随后计算从Left罐再抽与转换到Right罐的期望收益,选最大者。Treatment 1中由于Left罐颜色比例为(4,2)/(3,3),从Left抽到黑球后转换至Right罐严格更优,从Left抽到白球后留在Left严格更优。

强化学习启发式

"Win-stay, lose-shift":若上一次行动产生正回报则继续该行动;产生零回报则改变行动。该启发式不需要后验更新,直接来自结果反馈。在本实验Left罐起始的关键节点上,这与BEU的指引完全相反。

情感增强的强化模型(论文建议的扩展)

作者建议将"基于感觉的强化"纳入强化学习模型的支付函数:
$\text{Effective Reward} = \text{Monetary Payoff} + \alpha \cdot \text{Affect}$
其中Affect由结果的"成功/失败"心理标记决定。Treatment 3通过让首次抽球不计酬且事后才告知"成功颜色",将\text{Affect}=0,由此估计\alpha的实际作用。

复杂性厌恶模型

人们愿意付出可衡量的预期收益代价(选Right起始而非Left)以规避后续决策的认知负担。Phase III中即使BEU推荐Left起始,仍有54-63%的人选Right,验证复杂性厌恶。

维度3:核心发现

详见维度1中已列出的"假设检验结果"和"核心结果"表格,要点:

  1. Right起始错误率仅约5%,Left起始错误率约48%,差距主要由两种启发式的方向是否冲突决定。
  2. 同样Left起始下,黑球(成功)后的转换错误率(59.4%)远高于白球(失败)后(33.8%),显示正面情感更难抑制。
  3. 简化贝叶斯(Treatment 2)几乎不降低错误率(48.1% → 48.1%),表明复杂性不是主因。
  4. 消除情感(Treatment 3)将黑球后错误率从36.8%降至13.5%(降幅63%),白球后从55.7%降至42.4%(降幅24%),证实情感是关键。
  5. 强化倾向跨期可识别:约26%被试在Phase II从未改变起始罐选择;其余85%表现出"前期成功越少、越倾向于改变起始罐";跨期与期内强化行为正相关,且在Treatment 3中相关性消失。
  6. 错误成本越高、犯错越少:成本>0.30的错误发生率<5%,成本<0.30的错误发生率>11%。
  7. 显著性别差异:女性在24种可能错误中20种错误率更高(p=0.002)。

维度4:变量概览

变量类型 变量名 定义/测量
处理变量 Treatment 1/2/3 基础 / 简化复杂性 / 去情感
处理变量 起始罐 Phase I强制交替;Phase II自由;Phase III自由+反转报酬
处理变量 Phase I (1-20) / II (21-50) / III (51-60)
处理变量 报酬反转 Phase III将Left=7/6、Right=1(与Phase I-II相反)
主要结果变量 转换错误(switching error) 二次抽取的罐子选择是否偏离BEU最优
主要结果变量 起始罐选择 Left vs Right的频率
控制/调节变量 抽到的颜色 黑球(成功)/白球(失败)
控制/调节变量 错误的预期成本 BEU与所选行动期望收益之差
个体特征 性别 事后收集
行为统计量 跨期强化倾向 上期成功后是否保持起始罐选择
拟合统计量 OLS / 随机效应回归系数 错误频率对成本、起始、情感、性别的回归
货币换算 1单位 = $0.30 Treatment 1平均收入$23.14;Treatment 2 $22.06;Treatment 3 $17.82

维度5:局限性

  1. 任务高度抽象:两罐黑白球任务虽便于刻画机制,但与现实金融或医疗决策中的多维信号、动态风险有距离。
  2. 样本同质:UCSB大学生样本,未控制专业背景、统计素养、风险偏好等特质,外部效度有限。
  3. 风险偏好近似处理:仅通过CRRA敏感性分析说明结论稳健,未直接测量个体风险/模糊偏好。
  4. Treatment 3识别局限:消除情感同时也改变了任务结构(强制起始+首抽不计酬),可能引入对程序的理解或注意力变化等混杂。
  5. Phase设计内生:Phase I强制起始可能影响Phase II自由选择阶段的学习路径,Phase间比较受顺序效应影响。
  6. 女性效应未深入:性别差异显著,但未结合心理学测度(如风险厌恶、焦虑)解释来源。
  7. 错误学习不显著:错误率不随时间下降,未能直接观察反馈频率/反馈结构对纠偏的作用。

维度6:与其他文献的关系

文献 关系
Kahneman & Tversky 代表性启发式 本文聚焦"启发式相互冲突"而非单一偏差测量,扩展了启发式研究的实验范式
Grether (1980, 1992) 关于个体忽略先验/似然的发现;本文识别情感是忽略来源之一
Camerer_1999_EWA_Learning / Roth & Erev (1995) 强化学习模型;本文建议加入"基于感觉的强化"
Samuelson & Zeckhauser (1988) 现状偏差;与本文复杂性厌恶下的Right起始偏好一致
Charness & Dave (2017) 同作者的confirmation bias研究,关注信念与情感的交互
401(k)资产配置文献 本文为投资者对正向财富冲击不敏感的"自主性溢价"提供心理机制
实验金融中的反馈与情感 与Kuhnen-Knutson神经经济学研究中"正反馈引发持有偏好"一致

维度7:可拓展的研究方向

  1. 金融情境复制:将两罐任务嵌入真实股票/基金选择,检验情感诱发偏离的现实金融后果。
  2. 生理测量:用皮电、心率、fMRI测量首次抽球结果引发的情感强度,将affect \alpha参数化。
  3. 干预设计:测试debiasing方法(写下贝叶斯计算、延迟决策、提供决策辅助)能否降低情感驱动的错误。
  4. 神经机制:与Kuhnen-Knutson的nucleus accumbens激活相结合,定位"成功后留下"的神经基础。
  5. 自动化决策对比:让被试为他人/AI做决策(去除自我相关情感),检验是否能逼近BEU。
  6. 市场反馈层面:将该范式扩展到资产市场实验,看情感驱动的强化是否产生定价偏差或交易量异常。
  7. 跨文化与年龄差异:在不同文化或不同年龄段(青少年、老年人)复制,检验情感影响的稳健性。
  8. 学习结构:操纵反馈频率、反馈延迟和反馈显著性,检验何种反馈结构能促进贝叶斯化。

关键结论

  1. 当贝叶斯更新与强化学习方向一致时,几乎所有人按贝叶斯行动;当二者冲突时,约一半决策违反贝叶斯。
  2. 任务复杂性的降低(Treatment 2)几乎不能降低错误率,复杂性不是主要驱动因素。
  3. 消除首次抽球带来的"赢/输"情感(Treatment 3)能显著降低偏离贝叶斯的错误率,特别是成功后的错误率(降63%),证实情感是关键机制。
  4. 错误的预期成本越高,错误率越低;强化学习的强度具有可观察的个体异质性;女性受强化启发式影响更强。
  5. 强化学习模型应当将"基于感觉的强化"作为额外报酬纳入,才能解释自主选择者对正向财富冲击不敏感等现实偏差。