Experience-Weighted Attraction Learning in Normal Form Games

Authors: Colin Camerer & Teck-Hua Ho
Journal: Econometrica, Vol. 67, No. 4, pp. 827-874
Year: 1999
Keywords: Learning, behavioral game theory, reinforcement learning, fictitious play

一句话总结

提出 Experience-Weighted Attraction (EWA) 学习模型，用一个含 6 个参数的统一框架将选择强化学习 (choice reinforcement) 和加权虚拟博弈 (weighted fictitious play / belief learning) 嵌入为特殊情形，并在常数和博弈、中位数行动博弈和 $p$ -选美博弈三类实验数据上证明 EWA 在样本内和样本外均优于两个特殊情形。

研究问题

在重复正规型博弈中，玩家的学习行为应该被建模为对历史收益的强化更新（只更新被选策略），还是对对手策略分布的信念更新（用所有策略的假想收益）？两类范式各自能解释哪些实验事实？是否存在一个嵌套二者的更一般化框架，能同时刻画"实际收益的强化效应"和"假想收益的模拟效应"？

核心贡献

统一框架：通过 $\delta$ （假想收益权重）、 $\phi$ （吸引力衰减率）、 $\rho$ （经验权重折旧率）、 $N(0)$ （先验经验强度）等参数的特定取值，证明强化学习和加权虚拟博弈是同一规则的特殊情形（"hybrid"性质）。
实证证据：在 6 个不同博弈中的 4 个，EWA 的对数似然和样本外预测均方偏差均显著优于两特殊情形；强化学习和信念学习施加的参数约束被 $\chi^2$ 检验拒绝。
参数估计：跨博弈估计出 $\hat{\delta} \approx 0.50$ ，表明玩家对未选策略的假想收益赋予约为实际收益一半的权重——"实际效应法则"和"模拟效应法则"同时存在。
方法论：70%/30% 校准/验证分割避免过拟合；Jackknife 标准误；同时在三类结构差异显著的博弈上比较模型。

维度1：实验设计分析

1. 核心研究问题

本文提出一个统一的博弈学习模型——"经验加权吸引力"(Experience-Weighted Attraction, EWA)学习模型，将两大传统学习范式——选择强化学习 (choice reinforcement) 和信念学习 (belief learning / weighted fictitious play) 统一为一个一般化框架的特殊情形。核心问题是：在重复博弈中，哪种学习模型能最好地描述人类行为？

2. 模型与公式 (重点)

2.1 基本设定

$n$ 人正规型博弈，玩家 $i$ 的策略空间 $S_i = \{s_i^1, s_i^2, \ldots, s_i^{m_i}\}$
收益函数 $\pi_i(s_i, s_{-i})$
第 $t$ 期玩家 $i$ 的实际策略选择记为 $s_i(t)$ ，对手策略组合记为 $s_{-i}(t)$
指示函数 $I(x, y) = 1$ 若 $x = y$ ，否则为 0

2.2 EWA 更新规则：两个核心变量

EWA 模型的核心是两个逐期更新的变量：

(1) 经验权重 $N(t)$ ——衡量过去经验的"观察等价期数"：

N(t) = \rho \cdot N(t-1) + 1, \quad t \geq 1

$\rho \in [0, 1]$ ：经验折旧率 (retrospective discount factor)
$N(0)$ ：初始经验权重，反映先验信念的强度

(2) 策略吸引力 $A_i^j(t)$ ——玩家 $i$ 对策略 $s_i^j$ 在第 $t$ 期后的吸引力：

A_i^j(t) = \frac{\phi \cdot N(t-1) \cdot A_i^j(t-1) + [\delta + (1-\delta) \cdot I(s_i^j, s_i(t))] \cdot \pi_i(s_i^j, s_{-i}(t))}{N(t)}

其中：

$\phi \in [0, 1]$ ：吸引力衰减率 (depreciation rate for past attractions)
\delta \in [0, 1]：想象力参数 (imagination factor)，控制未选策略的假想收益权重
- 被选策略获得权重 $\delta + (1-\delta) = 1$
- 未被选策略获得权重 $\delta$ （假想收益的权重）
$A_i^j(0)$ ：策略 $j$ 的初始吸引力

2.3 选择概率 (Logit 形式)

吸引力通过 logit 函数转化为选择概率：

P_i^j(t+1) = \frac{e^{\lambda \cdot A_i^j(t)}}{\sum_{k=1}^{m_i} e^{\lambda \cdot A_i^k(t)}}

$\lambda > 0$ ：收益敏感度参数 (payoff sensitivity)，越大则选择越倾向于高吸引力策略

替代形式——幂函数形式 (power form)：

P_i^j(t+1) = \frac{(A_i^j(t))^\lambda}{\sum_{k=1}^{m_i}(A_i^k(t))^\lambda}

2.4 特殊情形：强化学习

当 $\delta = 0$ , $N(0) = 1$ , $\rho = 0$ 时，EWA 退化为累积选择强化学习：

R_i^j(t) = \phi \cdot R_i^j(t-1) + I(s_i^j, s_i(t)) \cdot \pi_i(s_i^j, s_{-i}(t))

只有被选中的策略获得收益强化
未被选策略仅按 $\phi$ 衰减

平均强化形式（ $\delta = 0$ , $N(0) = 1/(1-\rho)$ , $\rho = \phi$ ）：

R_i^j(t) = \phi \cdot R_i^j(t-1) + (1-\phi) \cdot I(s_i^j, s_i(t)) \cdot \pi_i(s_i^j, s_{-i}(t))

2.5 特殊情形：信念学习 (加权虚拟博弈)

信念更新规则——对手策略组合 $s_{-i}^k$ 的信念：

B_{-i}^k(t) = \frac{\rho \cdot N(t-1) \cdot B_{-i}^k(t-1) + I(s_{-i}^k, s_{-i}(t))}{\rho \cdot N(t-1) + 1}

期望收益：

E_i^j(t) = \sum_{k=1}^{m_{-i}} \pi_i(s_i^j, s_{-i}^k) \cdot B_{-i}^k(t)

递推形式：

E_i^j(t) = \frac{\rho \cdot N(t-1) \cdot E_i^j(t-1) + \pi_i(s_i^j, s_{-i}(t))}{\rho \cdot N(t-1) + 1}

当 $\delta = 1$ 且 $\phi = \rho$ （且初始吸引力等于基于先验信念的期望收益）时，EWA 的吸引力更新与加权虚拟博弈的期望收益更新完全等价。

2.6 对数似然函数

参数估计采用最大似然法。在前 70% 数据上校准，后 30% 数据上验证：

LL(A(0), N(0), \phi, \rho, \delta, \lambda) = \sum_{t=1}^{0.7T} \sum_{i=1}^{N} \ln\left(\sum_{j=1}^{m_i} I(s_i^j, s_i(t)) \cdot \frac{e^{\lambda \cdot A_i^j(t-1)}}{\sum_{k=1}^{m_i} e^{\lambda \cdot A_i^k(t-1)}}\right)

样本外验证的均方偏差 (MSD)：

MSD = \sum_{t=0.7T+1}^{T} \sum_{i=1}^{N} \sum_{j=1}^{m_i} \frac{[P_i^j(t) - I(s_i^j, s_i(t))]^2}{0.3 \cdot T \cdot N \cdot m_i}

3. 实验设计与实证结果

3.1 数据来源

三类博弈实验数据：

博弈类型	特征	期数
常数和博弈 (4个)	唯一混合策略均衡，含弱劣策略	40期
中位数行动博弈	多个Pareto排序均衡，协调博弈	10期
$p$ -选美博弈	可迭代剔除优势策略，唯一均衡	10期

3.2 关键参数估计值

参数	常数和博弈	中位数行动博弈	$p$ -选美博弈	含义
$\hat{\delta}$	~0.42	~0.85	~0.23	跨博弈平均约0.50
$\hat{\phi}$	~1.00	~0.80	~1.33	接近1，吸引力缓慢衰减
$\hat{\rho}$	~0.94	~0.00	~0.94	经验权重折旧
$N(0)$	10-20	~0.65	~16.82	先验经验权重

3.3 主要发现

EWA 在大多数情况下拟合优于两个特殊情形：在6个博弈中的4个，EWA在校准和验证阶段均显著优于强化学习和信念学习
强化学习和信念学习的参数约束通常被拒绝： $\chi^2$ 检验显著
$\delta$ 显著不同于0和1：玩家对假想收益赋予约为实际收益一半的权重，兼具"实际效应法则"和"模拟效应法则"
$\phi > \rho$ ：吸引力的衰减速度慢于经验权重的衰减速度，吸引力的增长速度介于累积和平均之间
中位数行动博弈中 $\hat{\rho} = 0$ ：吸引力可以快速增长，解释了该博弈中观察到的迅速收敛
两类玩家异质性：两段模型略优于单段模型，但改进不大

4. 贡献与局限

4.1 理论贡献

统一框架：首次严格证明强化学习和加权虚拟博弈是同一学习规则(EWA)的特殊情形，揭示二者的"共同血统"
参数可解释性：每个参数对应清晰的心理学含义
- $\delta$ ：对应"实际效应法则"vs"模拟效应法则"的相对权重
- $\phi, \rho$ ：分别控制吸引力衰减和经验衰减，决定学习速率
- $N(0)$ ：先验经验的强度，类似贝叶斯中的先验强度
内生抱负水平： $\delta$ 乘以平均假想收益构成一个自动调整的内生抱负水平

4.2 方法论贡献

在三类结构不同的博弈上同时比较模型（此前研究仅针对单类博弈）
70%/30% 的校准/验证分割，防止过拟合
Jackknife 标准误估计
AIC/BIC 信息准则调整自由度

4.3 局限与未来方向

未纳入老练性 (sophistication)：模型假设玩家不考虑对手也在学习
不完美收益信息：模型假设玩家知道完整收益矩阵（ $\delta = 0$ 可处理不知道的情形）
策略空间限定：仅考虑阶段博弈策略，未处理历史依赖策略或决策规则
参数跨博弈变化较大： $\delta$ 在常数和博弈约0.42，中位数行动博弈约0.85，选美博弈约0.23

参数总结表

参数	范围	经济含义	特殊情形
$\delta$	$[0, 1]$	假想收益的权重（想象力）	$\delta=0$ : 强化学习; $\delta=1$ : 信念学习
$\phi$	$[0, +\infty)$	过去吸引力的衰减率	$\phi=\rho$ : 信念学习
$\rho$	$[0, 1]$	经验权重的折旧率	$\rho=0$ : 累积强化; $\rho=\phi$ : 信念学习
$N(0)$	$[0, 1/(1-\rho)]$	初始经验权重（先验强度）	$N(0)=1$ : 典型强化学习
$A_i^j(0)$	自由估计	策略初始吸引力	信念模型: 须等于先验期望收益
$\lambda$	$> 0$	收益敏感度	越大选择越确定

Filed under: #learning #game-theory #reinforcement-learning #belief-learning #EWA #behavioral-economics

维度2：理论模型

详见上文 §2 模型与公式部分。核心是双变量 ( $N(t), A_i^j(t))$ 的递推更新，加上 logit 选择规则。模型嵌套强化学习 ( $\delta=0$ ) 和加权虚拟博弈 ( $\delta=1, \phi=\rho$ , 初始吸引力等于先验期望收益) 两个特殊情形。

维度3：核心发现

详见上文 §3.3 主要发现部分。要点：(i) EWA 在 6 个博弈中的 4 个显著优于两特殊情形；(ii) $\hat{\delta} \approx 0.5$ 拒绝 0 与 1 的端点；(iii) $\hat{\phi} > \hat{\rho}$ 表明吸引力增长介于累积型和平均型之间；(iv) 中位数行动博弈中 $\hat{\rho} \approx 0$ 解释了观察到的快速收敛。

维度4：变量概览

变量	类型	说明
$s_i(t)$	观测因变量	玩家 $i$ 在第 $t$ 期的实际策略选择
$\pi_i(s_i, s_{-i})$	外生设计	实验设定的收益矩阵
$A_i^j(t)$	潜在状态	策略 $j$ 在第 $t$ 期的吸引力（被估计的隐变量）
$N(t)$	潜在状态	观察等价期数（先验强度）
$P_i^j(t+1)$	模型预测	第 $t+1$ 期选择策略 $j$ 的概率
$\delta, \phi, \rho, \lambda, N(0), A^j(0)$	待估参数	6 个核心参数

维度5：局限性

缺失老练性 (sophistication)：模型假设玩家不考虑对手也在学习，无法刻画前瞻型玩家的"教学动机"——后续 Camerer_2003_Thinking_Learning_Teaching 正是补充这一维度。
完全收益信息假设：模型默认玩家知道完整收益矩阵；不完美信息情形仅能通过强行设 $\delta=0$ 处理。
跨博弈参数异质： $\delta$ 在常数和博弈约 0.42、中位数行动博弈约 0.85、选美博弈约 0.23，说明参数不是稳定的"个体特征"，而是依赖博弈结构。
策略空间局限于阶段博弈：未处理玩家可能采用历史依赖策略 (如触发策略) 或元决策规则。
未区分异质性来源：两段 latent class 模型仅略优于单段模型，说明异质性可能更连续。
无神经/认知机制：参数仅是行为拟合，缺乏与脑成像、反应时间等过程数据的联结。

维度6：与其他文献的关系

思维与教学的扩展：Camerer_2003_Thinking_Learning_Teaching 在 EWA 之上加入老练性 (sophisticated EWA) 和教学博弈 (teaching games)。
自调参版本：Ho, Camerer & Chong (2007, JET) "Self-tuning EWA" 让 $\delta, \phi, \rho$ 由经验内生决定。
强化学习理论基础：模型的强化学习特殊情形对应 Erev & Roth (1998) 累积强化模型；信念学习对应加权虚拟博弈 (Cheung & Friedman 1997)。
认知层级模型：与 Stahl & Wilson (1995)、Nagel (1995)、Camerer/Ho/Chong (2004) 的 Cognitive Hierarchy / Level- $k$ 模型互补——前者刻画单期策略思维深度，EWA 刻画跨期学习。
强化学习与信念形成：与 Palminteri_2022_ConfirmationBias_ReinforcementLearning 的确认偏误强化学习相关——后者在 RL 框架中引入正负反馈不对称性。
学习与金融决策：Adam_Marcet_2016_StockMarketVolatility_Learning、Ehling_2018_AssetPrices_PortfolioChoice_LearningExperience 将适应性学习引入资产定价，但学习对象是价格而非对手策略。
博弈与信念：CostaGomes_2014_Beliefs_TrustGame_IV 关注信念在博弈中的因果作用，与 EWA 的信念学习侧面互补。

维度7：可拓展的研究方向

金融市场应用：将 EWA 用于刻画投资者在市场中的策略学习——同时受真实交易反馈 ( $\delta=0$ 部分) 和"如果当时买入会怎样"的反事实假想 ( $\delta>0$ 部分) 影响。
激励对学习参数的影响：通过实验外生改变激励强度，识别 $\lambda$ (收益敏感度) 与激励的关系。
神经基础：将 EWA 的 $\delta$ 与脑成像研究对应——实际收益激活 ventral striatum（强化），假想收益激活 ventromedial PFC（模拟）。
学习与情绪：在 EWA 中加入情绪状态变量，研究后悔/失望如何调制 $\delta$ （假想收益的权重应受后悔放大）。
结构异质性：用混合 EWA + 个体协变量（性别、年龄、智力）解释参数异质性，链接行为博弈与个体差异心理学。
机器对手：让 EWA 玩家与不同算法 (Q-learning, Deep RL) 对手交互，研究人机协作中的学习收敛。

关键结论

EWA 通过 6 个参数的统一框架嵌套了强化学习和加权虚拟博弈两大学习范式，实证上 $\hat{\delta} \approx 0.5$ 显著拒绝端点，证明人类学习兼具"实际效应法则"和"模拟效应法则"。
在常数和博弈、中位数行动博弈、 $p$ -选美博弈三类结构差异显著的实验数据上，EWA 在样本内对数似然和样本外预测 MSD 均显著优于两个特殊情形，确立了 EWA 作为基准学习模型的地位。

Camerer_1999_EWA_Learning