Camerer_1999_EWA_Learning
Experience-Weighted Attraction Learning in Normal Form Games
Authors: Colin Camerer & Teck-Hua Ho
Journal: Econometrica, Vol. 67, No. 4, pp. 827-874
Year: 1999
Keywords: Learning, behavioral game theory, reinforcement learning, fictitious play
一句话总结
提出 Experience-Weighted Attraction (EWA) 学习模型,用一个含 6 个参数的统一框架将选择强化学习 (choice reinforcement) 和加权虚拟博弈 (weighted fictitious play / belief learning) 嵌入为特殊情形,并在常数和博弈、中位数行动博弈和 p-选美博弈三类实验数据上证明 EWA 在样本内和样本外均优于两个特殊情形。
研究问题
在重复正规型博弈中,玩家的学习行为应该被建模为对历史收益的强化更新(只更新被选策略),还是对对手策略分布的信念更新(用所有策略的假想收益)?两类范式各自能解释哪些实验事实?是否存在一个嵌套二者的更一般化框架,能同时刻画"实际收益的强化效应"和"假想收益的模拟效应"?
核心贡献
- 统一框架:通过 \delta(假想收益权重)、\phi(吸引力衰减率)、\rho(经验权重折旧率)、N(0)(先验经验强度)等参数的特定取值,证明强化学习和加权虚拟博弈是同一规则的特殊情形("hybrid"性质)。
- 实证证据:在 6 个不同博弈中的 4 个,EWA 的对数似然和样本外预测均方偏差均显著优于两特殊情形;强化学习和信念学习施加的参数约束被 \chi^2 检验拒绝。
- 参数估计:跨博弈估计出 \hat{\delta} \approx 0.50,表明玩家对未选策略的假想收益赋予约为实际收益一半的权重——"实际效应法则"和"模拟效应法则"同时存在。
- 方法论:70%/30% 校准/验证分割避免过拟合;Jackknife 标准误;同时在三类结构差异显著的博弈上比较模型。
维度1:实验设计分析
1. 核心研究问题
本文提出一个统一的博弈学习模型——"经验加权吸引力"(Experience-Weighted Attraction, EWA)学习模型,将两大传统学习范式——选择强化学习 (choice reinforcement) 和信念学习 (belief learning / weighted fictitious play) 统一为一个一般化框架的特殊情形。核心问题是:在重复博弈中,哪种学习模型能最好地描述人类行为?
2. 模型与公式 (重点)
2.1 基本设定
- n 人正规型博弈,玩家 i 的策略空间 S_i = \{s_i^1, s_i^2, \ldots, s_i^{m_i}\}
- 收益函数 \pi_i(s_i, s_{-i})
- 第 t 期玩家 i 的实际策略选择记为 s_i(t),对手策略组合记为 s_{-i}(t)
- 指示函数 I(x, y) = 1 若 x = y,否则为 0
2.2 EWA 更新规则:两个核心变量
EWA 模型的核心是两个逐期更新的变量:
(1) 经验权重 N(t)——衡量过去经验的"观察等价期数":
- \rho \in [0, 1]:经验折旧率 (retrospective discount factor)
- N(0):初始经验权重,反映先验信念的强度
(2) 策略吸引力 A_i^j(t)——玩家 i 对策略 s_i^j 在第 t 期后的吸引力:
其中:
- \phi \in [0, 1]:吸引力衰减率 (depreciation rate for past attractions)
- \delta \in [0, 1]:想象力参数 (imagination factor),控制未选策略的假想收益权重
- 被选策略获得权重 \delta + (1-\delta) = 1
- 未被选策略获得权重 \delta(假想收益的权重)
- A_i^j(0):策略 j 的初始吸引力
2.3 选择概率 (Logit 形式)
吸引力通过 logit 函数转化为选择概率:
- \lambda > 0:收益敏感度参数 (payoff sensitivity),越大则选择越倾向于高吸引力策略
替代形式——幂函数形式 (power form):
2.4 特殊情形:强化学习
当 \delta = 0, N(0) = 1, \rho = 0 时,EWA 退化为累积选择强化学习:
- 只有被选中的策略获得收益强化
- 未被选策略仅按 \phi 衰减
平均强化形式(\delta = 0, N(0) = 1/(1-\rho), \rho = \phi):
2.5 特殊情形:信念学习 (加权虚拟博弈)
信念更新规则——对手策略组合 s_{-i}^k 的信念:
期望收益:
递推形式:
当 \delta = 1 且 \phi = \rho(且初始吸引力等于基于先验信念的期望收益)时,EWA 的吸引力更新与加权虚拟博弈的期望收益更新完全等价。
2.6 对数似然函数
参数估计采用最大似然法。在前 70% 数据上校准,后 30% 数据上验证:
样本外验证的均方偏差 (MSD):
3. 实验设计与实证结果
3.1 数据来源
三类博弈实验数据:
| 博弈类型 | 特征 | 期数 |
|---|---|---|
| 常数和博弈 (4个) | 唯一混合策略均衡,含弱劣策略 | 40期 |
| 中位数行动博弈 | 多个Pareto排序均衡,协调博弈 | 10期 |
| p-选美博弈 | 可迭代剔除优势策略,唯一均衡 | 10期 |
3.2 关键参数估计值
| 参数 | 常数和博弈 | 中位数行动博弈 | p-选美博弈 | 含义 |
|---|---|---|---|---|
| \hat{\delta} | ~0.42 | ~0.85 | ~0.23 | 跨博弈平均约0.50 |
| \hat{\phi} | ~1.00 | ~0.80 | ~1.33 | 接近1,吸引力缓慢衰减 |
| \hat{\rho} | ~0.94 | ~0.00 | ~0.94 | 经验权重折旧 |
| N(0) | 10-20 | ~0.65 | ~16.82 | 先验经验权重 |
3.3 主要发现
- EWA 在大多数情况下拟合优于两个特殊情形:在6个博弈中的4个,EWA在校准和验证阶段均显著优于强化学习和信念学习
- 强化学习和信念学习的参数约束通常被拒绝:\chi^2 检验显著
- \delta 显著不同于0和1:玩家对假想收益赋予约为实际收益一半的权重,兼具"实际效应法则"和"模拟效应法则"
- \phi > \rho:吸引力的衰减速度慢于经验权重的衰减速度,吸引力的增长速度介于累积和平均之间
- 中位数行动博弈中 \hat{\rho} = 0:吸引力可以快速增长,解释了该博弈中观察到的迅速收敛
- 两类玩家异质性:两段模型略优于单段模型,但改进不大
4. 贡献与局限
4.1 理论贡献
- 统一框架:首次严格证明强化学习和加权虚拟博弈是同一学习规则(EWA)的特殊情形,揭示二者的"共同血统"
- 参数可解释性:每个参数对应清晰的心理学含义
- \delta:对应"实际效应法则"vs"模拟效应法则"的相对权重
- \phi, \rho:分别控制吸引力衰减和经验衰减,决定学习速率
- N(0):先验经验的强度,类似贝叶斯中的先验强度
- 内生抱负水平:\delta 乘以平均假想收益构成一个自动调整的内生抱负水平
4.2 方法论贡献
- 在三类结构不同的博弈上同时比较模型(此前研究仅针对单类博弈)
- 70%/30% 的校准/验证分割,防止过拟合
- Jackknife 标准误估计
- AIC/BIC 信息准则调整自由度
4.3 局限与未来方向
- 未纳入老练性 (sophistication):模型假设玩家不考虑对手也在学习
- 不完美收益信息:模型假设玩家知道完整收益矩阵(\delta = 0 可处理不知道的情形)
- 策略空间限定:仅考虑阶段博弈策略,未处理历史依赖策略或决策规则
- 参数跨博弈变化较大:\delta 在常数和博弈约0.42,中位数行动博弈约0.85,选美博弈约0.23
参数总结表
| 参数 | 范围 | 经济含义 | 特殊情形 |
|---|---|---|---|
| \delta | [0, 1] | 假想收益的权重(想象力) | \delta=0: 强化学习; \delta=1: 信念学习 |
| \phi | [0, +\infty) | 过去吸引力的衰减率 | \phi=\rho: 信念学习 |
| \rho | [0, 1] | 经验权重的折旧率 | \rho=0: 累积强化; \rho=\phi: 信念学习 |
| N(0) | [0, 1/(1-\rho)] | 初始经验权重(先验强度) | N(0)=1: 典型强化学习 |
| A_i^j(0) | 自由估计 | 策略初始吸引力 | 信念模型: 须等于先验期望收益 |
| \lambda | > 0 | 收益敏感度 | 越大选择越确定 |
Filed under: #learning #game-theory #reinforcement-learning #belief-learning #EWA #behavioral-economics
维度2:理论模型
详见上文 §2 模型与公式部分。核心是双变量 (N(t), A_i^j(t)) 的递推更新,加上 logit 选择规则。模型嵌套强化学习 (\delta=0) 和加权虚拟博弈 (\delta=1, \phi=\rho, 初始吸引力等于先验期望收益) 两个特殊情形。
维度3:核心发现
详见上文 §3.3 主要发现部分。要点:(i) EWA 在 6 个博弈中的 4 个显著优于两特殊情形;(ii) \hat{\delta} \approx 0.5 拒绝 0 与 1 的端点;(iii) \hat{\phi} > \hat{\rho} 表明吸引力增长介于累积型和平均型之间;(iv) 中位数行动博弈中 \hat{\rho} \approx 0 解释了观察到的快速收敛。
维度4:变量概览
| 变量 | 类型 | 说明 |
|---|---|---|
| s_i(t) | 观测因变量 | 玩家 i 在第 t 期的实际策略选择 |
| \pi_i(s_i, s_{-i}) | 外生设计 | 实验设定的收益矩阵 |
| A_i^j(t) | 潜在状态 | 策略 j 在第 t 期的吸引力(被估计的隐变量) |
| N(t) | 潜在状态 | 观察等价期数(先验强度) |
| P_i^j(t+1) | 模型预测 | 第 t+1 期选择策略 j 的概率 |
| \delta, \phi, \rho, \lambda, N(0), A^j(0) | 待估参数 | 6 个核心参数 |
维度5:局限性
- 缺失老练性 (sophistication):模型假设玩家不考虑对手也在学习,无法刻画前瞻型玩家的"教学动机"——后续 Camerer_2003_Thinking_Learning_Teaching 正是补充这一维度。
- 完全收益信息假设:模型默认玩家知道完整收益矩阵;不完美信息情形仅能通过强行设 \delta=0 处理。
- 跨博弈参数异质:\delta 在常数和博弈约 0.42、中位数行动博弈约 0.85、选美博弈约 0.23,说明参数不是稳定的"个体特征",而是依赖博弈结构。
- 策略空间局限于阶段博弈:未处理玩家可能采用历史依赖策略 (如触发策略) 或元决策规则。
- 未区分异质性来源:两段 latent class 模型仅略优于单段模型,说明异质性可能更连续。
- 无神经/认知机制:参数仅是行为拟合,缺乏与脑成像、反应时间等过程数据的联结。
维度6:与其他文献的关系
- 思维与教学的扩展:Camerer_2003_Thinking_Learning_Teaching 在 EWA 之上加入老练性 (sophisticated EWA) 和教学博弈 (teaching games)。
- 自调参版本:Ho, Camerer & Chong (2007, JET) "Self-tuning EWA" 让 \delta, \phi, \rho 由经验内生决定。
- 强化学习理论基础:模型的强化学习特殊情形对应 Erev & Roth (1998) 累积强化模型;信念学习对应加权虚拟博弈 (Cheung & Friedman 1997)。
- 认知层级模型:与 Stahl & Wilson (1995)、Nagel (1995)、Camerer/Ho/Chong (2004) 的 Cognitive Hierarchy / Level-k 模型互补——前者刻画单期策略思维深度,EWA 刻画跨期学习。
- 强化学习与信念形成:与 Palminteri_2022_ConfirmationBias_ReinforcementLearning 的确认偏误强化学习相关——后者在 RL 框架中引入正负反馈不对称性。
- 学习与金融决策:Adam_Marcet_2016_StockMarketVolatility_Learning、Ehling_2018_AssetPrices_PortfolioChoice_LearningExperience 将适应性学习引入资产定价,但学习对象是价格而非对手策略。
- 博弈与信念:CostaGomes_2014_Beliefs_TrustGame_IV 关注信念在博弈中的因果作用,与 EWA 的信念学习侧面互补。
维度7:可拓展的研究方向
- 金融市场应用:将 EWA 用于刻画投资者在市场中的策略学习——同时受真实交易反馈 (\delta=0 部分) 和"如果当时买入会怎样"的反事实假想 (\delta>0 部分) 影响。
- 激励对学习参数的影响:通过实验外生改变激励强度,识别 \lambda (收益敏感度) 与激励的关系。
- 神经基础:将 EWA 的 \delta 与脑成像研究对应——实际收益激活 ventral striatum(强化),假想收益激活 ventromedial PFC(模拟)。
- 学习与情绪:在 EWA 中加入情绪状态变量,研究后悔/失望如何调制 \delta(假想收益的权重应受后悔放大)。
- 结构异质性:用混合 EWA + 个体协变量(性别、年龄、智力)解释参数异质性,链接行为博弈与个体差异心理学。
- 机器对手:让 EWA 玩家与不同算法 (Q-learning, Deep RL) 对手交互,研究人机协作中的学习收敛。
关键结论
- EWA 通过 6 个参数的统一框架嵌套了强化学习和加权虚拟博弈两大学习范式,实证上 \hat{\delta} \approx 0.5 显著拒绝端点,证明人类学习兼具"实际效应法则"和"模拟效应法则"。
- 在常数和博弈、中位数行动博弈、p-选美博弈三类结构差异显著的实验数据上,EWA 在样本内对数似然和样本外预测 MSD 均显著优于两个特殊情形,确立了 EWA 作为基准学习模型的地位。