Camerer_1999_EWA_Learning

更新于 2026/7/5

Experience-Weighted Attraction Learning in Normal Form Games

Authors: Colin Camerer & Teck-Hua Ho
Journal: Econometrica, Vol. 67, No. 4, pp. 827-874
Year: 1999
Keywords: Learning, behavioral game theory, reinforcement learning, fictitious play


一句话总结

提出 Experience-Weighted Attraction (EWA) 学习模型,用一个含 6 个参数的统一框架将选择强化学习 (choice reinforcement) 和加权虚拟博弈 (weighted fictitious play / belief learning) 嵌入为特殊情形,并在常数和博弈、中位数行动博弈和 p-选美博弈三类实验数据上证明 EWA 在样本内和样本外均优于两个特殊情形。

研究问题

在重复正规型博弈中,玩家的学习行为应该被建模为对历史收益的强化更新(只更新被选策略),还是对对手策略分布的信念更新(用所有策略的假想收益)?两类范式各自能解释哪些实验事实?是否存在一个嵌套二者的更一般化框架,能同时刻画"实际收益的强化效应"和"假想收益的模拟效应"?

核心贡献

  1. 统一框架:通过 \delta(假想收益权重)、\phi(吸引力衰减率)、\rho(经验权重折旧率)、N(0)(先验经验强度)等参数的特定取值,证明强化学习和加权虚拟博弈是同一规则的特殊情形("hybrid"性质)。
  2. 实证证据:在 6 个不同博弈中的 4 个,EWA 的对数似然和样本外预测均方偏差均显著优于两特殊情形;强化学习和信念学习施加的参数约束被 \chi^2 检验拒绝。
  3. 参数估计:跨博弈估计出 \hat{\delta} \approx 0.50,表明玩家对未选策略的假想收益赋予约为实际收益一半的权重——"实际效应法则"和"模拟效应法则"同时存在。
  4. 方法论:70%/30% 校准/验证分割避免过拟合;Jackknife 标准误;同时在三类结构差异显著的博弈上比较模型。

维度1:实验设计分析

1. 核心研究问题

本文提出一个统一的博弈学习模型——"经验加权吸引力"(Experience-Weighted Attraction, EWA)学习模型,将两大传统学习范式——选择强化学习 (choice reinforcement) 和信念学习 (belief learning / weighted fictitious play) 统一为一个一般化框架的特殊情形。核心问题是:在重复博弈中,哪种学习模型能最好地描述人类行为?


2. 模型与公式 (重点)

2.1 基本设定

  • n 人正规型博弈,玩家 i 的策略空间 S_i = \{s_i^1, s_i^2, \ldots, s_i^{m_i}\}
  • 收益函数 \pi_i(s_i, s_{-i})
  • t 期玩家 i 的实际策略选择记为 s_i(t),对手策略组合记为 s_{-i}(t)
  • 指示函数 I(x, y) = 1x = y,否则为 0

2.2 EWA 更新规则:两个核心变量

EWA 模型的核心是两个逐期更新的变量:

(1) 经验权重 N(t)——衡量过去经验的"观察等价期数":

N(t) = \rho \cdot N(t-1) + 1, \quad t \geq 1
  • \rho \in [0, 1]:经验折旧率 (retrospective discount factor)
  • N(0):初始经验权重,反映先验信念的强度

(2) 策略吸引力 A_i^j(t)——玩家 i 对策略 s_i^j 在第 t 期后的吸引力:

A_i^j(t) = \frac{\phi \cdot N(t-1) \cdot A_i^j(t-1) + [\delta + (1-\delta) \cdot I(s_i^j, s_i(t))] \cdot \pi_i(s_i^j, s_{-i}(t))}{N(t)}

其中:

  • \phi \in [0, 1]:吸引力衰减率 (depreciation rate for past attractions)
  • \delta \in [0, 1]想象力参数 (imagination factor),控制未选策略的假想收益权重
    • 被选策略获得权重 \delta + (1-\delta) = 1
    • 未被选策略获得权重 \delta(假想收益的权重)
  • A_i^j(0):策略 j 的初始吸引力

2.3 选择概率 (Logit 形式)

吸引力通过 logit 函数转化为选择概率:

P_i^j(t+1) = \frac{e^{\lambda \cdot A_i^j(t)}}{\sum_{k=1}^{m_i} e^{\lambda \cdot A_i^k(t)}}
  • \lambda > 0:收益敏感度参数 (payoff sensitivity),越大则选择越倾向于高吸引力策略

替代形式——幂函数形式 (power form):

P_i^j(t+1) = \frac{(A_i^j(t))^\lambda}{\sum_{k=1}^{m_i}(A_i^k(t))^\lambda}

2.4 特殊情形:强化学习

\delta = 0, N(0) = 1, \rho = 0 时,EWA 退化为累积选择强化学习

R_i^j(t) = \phi \cdot R_i^j(t-1) + I(s_i^j, s_i(t)) \cdot \pi_i(s_i^j, s_{-i}(t))
  • 只有被选中的策略获得收益强化
  • 未被选策略仅按 \phi 衰减

平均强化形式(\delta = 0, N(0) = 1/(1-\rho), \rho = \phi):

R_i^j(t) = \phi \cdot R_i^j(t-1) + (1-\phi) \cdot I(s_i^j, s_i(t)) \cdot \pi_i(s_i^j, s_{-i}(t))

2.5 特殊情形:信念学习 (加权虚拟博弈)

信念更新规则——对手策略组合 s_{-i}^k 的信念:

B_{-i}^k(t) = \frac{\rho \cdot N(t-1) \cdot B_{-i}^k(t-1) + I(s_{-i}^k, s_{-i}(t))}{\rho \cdot N(t-1) + 1}

期望收益:

E_i^j(t) = \sum_{k=1}^{m_{-i}} \pi_i(s_i^j, s_{-i}^k) \cdot B_{-i}^k(t)

递推形式:

E_i^j(t) = \frac{\rho \cdot N(t-1) \cdot E_i^j(t-1) + \pi_i(s_i^j, s_{-i}(t))}{\rho \cdot N(t-1) + 1}

\delta = 1\phi = \rho(且初始吸引力等于基于先验信念的期望收益)时,EWA 的吸引力更新与加权虚拟博弈的期望收益更新完全等价

2.6 对数似然函数

参数估计采用最大似然法。在前 70% 数据上校准,后 30% 数据上验证:

LL(A(0), N(0), \phi, \rho, \delta, \lambda) = \sum_{t=1}^{0.7T} \sum_{i=1}^{N} \ln\left(\sum_{j=1}^{m_i} I(s_i^j, s_i(t)) \cdot \frac{e^{\lambda \cdot A_i^j(t-1)}}{\sum_{k=1}^{m_i} e^{\lambda \cdot A_i^k(t-1)}}\right)

样本外验证的均方偏差 (MSD):

MSD = \sum_{t=0.7T+1}^{T} \sum_{i=1}^{N} \sum_{j=1}^{m_i} \frac{[P_i^j(t) - I(s_i^j, s_i(t))]^2}{0.3 \cdot T \cdot N \cdot m_i}

3. 实验设计与实证结果

3.1 数据来源

三类博弈实验数据:

博弈类型 特征 期数
常数和博弈 (4个) 唯一混合策略均衡,含弱劣策略 40期
中位数行动博弈 多个Pareto排序均衡,协调博弈 10期
p-选美博弈 可迭代剔除优势策略,唯一均衡 10期

3.2 关键参数估计值

参数 常数和博弈 中位数行动博弈 p-选美博弈 含义
\hat{\delta} ~0.42 ~0.85 ~0.23 跨博弈平均约0.50
\hat{\phi} ~1.00 ~0.80 ~1.33 接近1,吸引力缓慢衰减
\hat{\rho} ~0.94 ~0.00 ~0.94 经验权重折旧
N(0) 10-20 ~0.65 ~16.82 先验经验权重

3.3 主要发现

  1. EWA 在大多数情况下拟合优于两个特殊情形:在6个博弈中的4个,EWA在校准和验证阶段均显著优于强化学习和信念学习
  2. 强化学习和信念学习的参数约束通常被拒绝\chi^2 检验显著
  3. \delta 显著不同于0和1:玩家对假想收益赋予约为实际收益一半的权重,兼具"实际效应法则"和"模拟效应法则"
  4. \phi > \rho:吸引力的衰减速度慢于经验权重的衰减速度,吸引力的增长速度介于累积和平均之间
  5. 中位数行动博弈中 \hat{\rho} = 0:吸引力可以快速增长,解释了该博弈中观察到的迅速收敛
  6. 两类玩家异质性:两段模型略优于单段模型,但改进不大

4. 贡献与局限

4.1 理论贡献

  • 统一框架:首次严格证明强化学习和加权虚拟博弈是同一学习规则(EWA)的特殊情形,揭示二者的"共同血统"
  • 参数可解释性:每个参数对应清晰的心理学含义
    • \delta:对应"实际效应法则"vs"模拟效应法则"的相对权重
    • \phi, \rho:分别控制吸引力衰减和经验衰减,决定学习速率
    • N(0):先验经验的强度,类似贝叶斯中的先验强度
  • 内生抱负水平\delta 乘以平均假想收益构成一个自动调整的内生抱负水平

4.2 方法论贡献

  • 在三类结构不同的博弈上同时比较模型(此前研究仅针对单类博弈)
  • 70%/30% 的校准/验证分割,防止过拟合
  • Jackknife 标准误估计
  • AIC/BIC 信息准则调整自由度

4.3 局限与未来方向

  • 未纳入老练性 (sophistication):模型假设玩家不考虑对手也在学习
  • 不完美收益信息:模型假设玩家知道完整收益矩阵(\delta = 0 可处理不知道的情形)
  • 策略空间限定:仅考虑阶段博弈策略,未处理历史依赖策略或决策规则
  • 参数跨博弈变化较大\delta 在常数和博弈约0.42,中位数行动博弈约0.85,选美博弈约0.23

参数总结表

参数 范围 经济含义 特殊情形
\delta [0, 1] 假想收益的权重(想象力) \delta=0: 强化学习; \delta=1: 信念学习
\phi [0, +\infty) 过去吸引力的衰减率 \phi=\rho: 信念学习
\rho [0, 1] 经验权重的折旧率 \rho=0: 累积强化; \rho=\phi: 信念学习
N(0) [0, 1/(1-\rho)] 初始经验权重(先验强度) N(0)=1: 典型强化学习
A_i^j(0) 自由估计 策略初始吸引力 信念模型: 须等于先验期望收益
\lambda > 0 收益敏感度 越大选择越确定

Filed under: #learning #game-theory #reinforcement-learning #belief-learning #EWA #behavioral-economics

维度2:理论模型

详见上文 §2 模型与公式部分。核心是双变量 (N(t), A_i^j(t)) 的递推更新,加上 logit 选择规则。模型嵌套强化学习 (\delta=0) 和加权虚拟博弈 (\delta=1, \phi=\rho, 初始吸引力等于先验期望收益) 两个特殊情形。

维度3:核心发现

详见上文 §3.3 主要发现部分。要点:(i) EWA 在 6 个博弈中的 4 个显著优于两特殊情形;(ii) \hat{\delta} \approx 0.5 拒绝 0 与 1 的端点;(iii) \hat{\phi} > \hat{\rho} 表明吸引力增长介于累积型和平均型之间;(iv) 中位数行动博弈中 \hat{\rho} \approx 0 解释了观察到的快速收敛。

维度4:变量概览

变量 类型 说明
s_i(t) 观测因变量 玩家 i 在第 t 期的实际策略选择
\pi_i(s_i, s_{-i}) 外生设计 实验设定的收益矩阵
A_i^j(t) 潜在状态 策略 j 在第 t 期的吸引力(被估计的隐变量)
N(t) 潜在状态 观察等价期数(先验强度)
P_i^j(t+1) 模型预测 t+1 期选择策略 j 的概率
\delta, \phi, \rho, \lambda, N(0), A^j(0) 待估参数 6 个核心参数

维度5:局限性

  1. 缺失老练性 (sophistication):模型假设玩家不考虑对手也在学习,无法刻画前瞻型玩家的"教学动机"——后续 Camerer_2003_Thinking_Learning_Teaching 正是补充这一维度。
  2. 完全收益信息假设:模型默认玩家知道完整收益矩阵;不完美信息情形仅能通过强行设 \delta=0 处理。
  3. 跨博弈参数异质\delta 在常数和博弈约 0.42、中位数行动博弈约 0.85、选美博弈约 0.23,说明参数不是稳定的"个体特征",而是依赖博弈结构。
  4. 策略空间局限于阶段博弈:未处理玩家可能采用历史依赖策略 (如触发策略) 或元决策规则。
  5. 未区分异质性来源:两段 latent class 模型仅略优于单段模型,说明异质性可能更连续。
  6. 无神经/认知机制:参数仅是行为拟合,缺乏与脑成像、反应时间等过程数据的联结。

维度6:与其他文献的关系

  • 思维与教学的扩展Camerer_2003_Thinking_Learning_Teaching 在 EWA 之上加入老练性 (sophisticated EWA) 和教学博弈 (teaching games)。
  • 自调参版本:Ho, Camerer & Chong (2007, JET) "Self-tuning EWA" 让 \delta, \phi, \rho 由经验内生决定。
  • 强化学习理论基础:模型的强化学习特殊情形对应 Erev & Roth (1998) 累积强化模型;信念学习对应加权虚拟博弈 (Cheung & Friedman 1997)。
  • 认知层级模型:与 Stahl & Wilson (1995)、Nagel (1995)、Camerer/Ho/Chong (2004) 的 Cognitive Hierarchy / Level-k 模型互补——前者刻画单期策略思维深度,EWA 刻画跨期学习。
  • 强化学习与信念形成:与 Palminteri_2022_ConfirmationBias_ReinforcementLearning 的确认偏误强化学习相关——后者在 RL 框架中引入正负反馈不对称性。
  • 学习与金融决策Adam_Marcet_2016_StockMarketVolatility_LearningEhling_2018_AssetPrices_PortfolioChoice_LearningExperience 将适应性学习引入资产定价,但学习对象是价格而非对手策略。
  • 博弈与信念CostaGomes_2014_Beliefs_TrustGame_IV 关注信念在博弈中的因果作用,与 EWA 的信念学习侧面互补。

维度7:可拓展的研究方向

  1. 金融市场应用:将 EWA 用于刻画投资者在市场中的策略学习——同时受真实交易反馈 (\delta=0 部分) 和"如果当时买入会怎样"的反事实假想 (\delta>0 部分) 影响。
  2. 激励对学习参数的影响:通过实验外生改变激励强度,识别 \lambda (收益敏感度) 与激励的关系。
  3. 神经基础:将 EWA 的 \delta 与脑成像研究对应——实际收益激活 ventral striatum(强化),假想收益激活 ventromedial PFC(模拟)。
  4. 学习与情绪:在 EWA 中加入情绪状态变量,研究后悔/失望如何调制 \delta(假想收益的权重应受后悔放大)。
  5. 结构异质性:用混合 EWA + 个体协变量(性别、年龄、智力)解释参数异质性,链接行为博弈与个体差异心理学。
  6. 机器对手:让 EWA 玩家与不同算法 (Q-learning, Deep RL) 对手交互,研究人机协作中的学习收敛。

关键结论

  1. EWA 通过 6 个参数的统一框架嵌套了强化学习和加权虚拟博弈两大学习范式,实证上 \hat{\delta} \approx 0.5 显著拒绝端点,证明人类学习兼具"实际效应法则"和"模拟效应法则"。
  2. 在常数和博弈、中位数行动博弈、p-选美博弈三类结构差异显著的实验数据上,EWA 在样本内对数似然和样本外预测 MSD 均显著优于两个特殊情形,确立了 EWA 作为基准学习模型的地位。