Models of Thinking, Learning, and Teaching in Games

作者： Colin Camerer, Teck Ho, Kuan Chong
期刊： American Economic Review (Papers and Proceedings), Vol. 93, No. 2, pp. 192-195
年份： 2003
资助： NSF grant SES-0078911

一句话总结

提出由"thinking (Cognitive Hierarchy)、learning (EWA)、teaching (Sophisticated EWA)"三大模块组成的统一行为博弈论框架，分别刻画一次性博弈中的有限思考、重复博弈中的反应式学习、以及前瞻型玩家对学习型对手的策略性教导，并通过 80+ 场 p-beauty contest 和混合策略博弈数据验证其经验有效性。

研究问题

在一次性博弈中，玩家的策略推理深度如何分布？为什么实际行为系统性偏离纳什均衡？
在重复博弈中，强化学习和信念学习哪一个更准确？是否存在统一二者的简约模型？
在重复配对 (partner-matching) 博弈中，部分玩家是否会有意识地选择能影响对手未来信念的行动 (策略性教学)？这种行为如何与简单学习行为区分？

核心贡献

CH (Cognitive Hierarchy) 模型：用单一参数 (泊松均值 $\tau$ ) 刻画思考步数分布，跨 80 多场 PBC 实验估计 $\tau \approx 1.5$ ，提供了比纳什均衡显著更准的一次性博弈预测，且 $\tau \to \infty$ 时退化为纳什均衡。
EWA 学习的延伸：在 Camerer_1999_EWA_Learning 基础上提出 fEWA (functional EWA)，将固定参数 $\delta, \phi$ 替换为经验函数（特别是 $\phi$ 作为"变化检测器"），用更少自由参数实现同等或更好拟合。
教学模块 (Sophisticated EWA)：将策略性前瞻 (strategic foresight) 引入学习模型，区分"学习者"与"教师"两类玩家，刻画重复信任博弈和进入威慑博弈中的教学行为。
统一框架：将 thinking (单期，无学习)、learning (多期，无前瞻)、teaching (多期，有前瞻) 整合为同一行为博弈论体系，可作为均衡分析的一般化替代。

维度1：实验设计分析

实验任务详细流程

本文为综述性短文（AEA Papers and Proceedings），本身未报告新实验，而是总结三类行为博弈论模型（thinking、learning、teaching）的实验证据。文中引用的实验数据主要来自以下范式：

核心实验范式一：p-beauty contest（PBC）游戏

任务描述：

玩家在区间 [0, 100] 中选择一个数字。
以 p = 2/3 为例，数字最接近所有人平均值的 2/3 的玩家获得固定奖金。
该博弈的纳什均衡为所有人选择 0（因为 x* = (2/3)x* 的唯一解为 0），但实验中被试的平均选择通常在 20-40 之间。

被试池（Table 1汇总，超过80场博弈）：

Computer scientists（N组均值18, SD=17.4）
Game theorists（均值19, SD=21.8）
Caltech students（均值23, SD=11.1）
Newspaper readers（均值23, SD=20.2）
Portfolio managers（均值24, SD=16.1）
Economics Ph.D. class（均值27, SD=18.7）
High school students（均值33, SD=18.6）
70-year-olds（均值37, SD=17.5）
German students（均值37, SD=20.0）
CEO's（均值38, SD=18.8）
Pasadena City College students（均值48-54, SD=24-29）

关键参数估计：

思考步数（steps of thinking）的估计值范围从 0.0 到 3.8 步。
均值 tau = 1.56，中位数 tau = 1.30。
分析能力较强的群体（如 computer scientists, game theorists）思考步数更高（约 3-4 步），普通群体约 1-2 步。

激励机制：

一般以 $20 为奖金（group playing for $20）。
部分来自报纸竞赛数据和高中学生数据。

核心实验范式二：非对称匹配硬币博弈（Asymmetric Matching-Pennies）

任务描述：

两个玩家分别选择 H 或 T。
不匹配时支付为 (0, 1)（玩家2获胜）；匹配时支付为 (T,T) -> (1, 0)，(H,H) -> (x, 0)，其中 x > 1。
纳什均衡预测：玩家1以50%概率选H和T（无论x大小）；玩家2选T的概率为 x/(x+1)。

实验数据（x=9时）：

实验观察频率：玩家1选H为0.75，玩家2选H为0.33。
CH模型预测：玩家1选H为0.89，玩家2选H为0.28。
纳什预测：玩家1选H为0.50，玩家2选H为0.10。
来源：22个混合策略博弈的汇总数据。

核心实验范式三：重复博弈中的学习与教学

任务描述：

重复配对信任博弈（repeated trust games）和进入威慑博弈（entry-deterrence games）。
"Partner-matching"设计：同一对被试重复交互。
数据来源：Camerer et al. (2002b)。

样本与设计特征

特征	描述
总样本	超过80场PBC博弈 + 22个混合策略博弈
被试类型	CEO、学生、博弈论专家、报纸读者、70岁老人等
博弈类型	one-shot博弈 + 重复博弈
组别规模	g = 2（两人博弈）到 g = 3（三人博弈）以及大规模报纸竞赛
设计特征	主要为被试间设计（不同被试池的比较）

维度2：理论模型

模型一：认知层级模型（Cognitive Hierarchy, CH）——Thinking

核心思想：
CH模型将玩家按"思考步数"分层，用以解释一次性博弈中的有限理性行为。

模型结构：

0步玩家： 在所有可用策略上均匀随机选择。
k步玩家（k >= 1）： 相信其他所有玩家的思考步数只从0到k-1步；用贝叶斯方式估计低层级玩家的比例，然后计算期望收益并选择最佳响应。
信念函数： g_k(h) = f(h) / sum_{l=0}^{k-1} f(l)，对 h >= k 时 g_k(h) = 0。即k步玩家将真实分布f(h)截断并重新归一化，仅考虑比自己思考步数更少的人。
频率分布： f(k)/f(k-1) 近似正比于 1/k，这意味着 f(k) = e^{-tau} * tau^k / k!，即泊松分布，参数 tau 为思考步数的均值和方差。

关键参数：

tau（唯一自由参数）：思考步数的泊松分布均值。
来自80多场博弈的估计表明 tau 在1到2之间，中位数约1.3。
作者猜测 tau = 1.5 在典型实验条件下几乎总是比纳什均衡更准确地预测数据。

与其他模型的关系：

当 tau -> infinity 时，CH模型趋近于纳什均衡。
与 Quantal Response Equilibrium (QRE) 的区别：QRE弱化最佳响应但保留互一致性；CH模型保留最佳响应但弱化互一致性。
与 Monica Capra (1999) noisy expectation formation 的区别：后者同时弱化最佳响应和一致性。
与 Stahl (1993) 和 Binmore (1988) 的早期有限思考模型相关。

经验成功：

PBC博弈：tau = 1.5 预测均值约27，虽然对某些群体偏高或偏低，但总是比纳什均衡（预测0）更准确。
非对称匹配硬币博弈：CH模型成功预测了玩家1的"反常"高频H选择（纳什均衡预测50%但实际为75%），并大致匹配玩家2的纳什预测。
模型具有"经济价值"：被试如果使用CH模型来预测对手行为，能赚更多钱。

模型二：经验加权吸引力学习模型（EWA）——Learning

核心思想：
EWA是一个统一的学习模型，将强化学习（reinforcement learning）和信念学习（belief learning/fictitious play）作为特殊情形包含在内。

模型结构：

强化学习： 策略的吸引力（attraction level）在该策略被选择且获得正收益时增加。优点：简单，类似动物学习。缺点：忽略未选择策略的信息（forgone payoffs）。
信念学习（虚拟博弈）： 玩家根据对手历史行为的加权平均形成信念，然后对信念做最佳响应。
EWA统一框架： 未选择策略的虚拟收益以权重 delta 加入。delta = 0 为纯强化学习，delta = 1 为纯虚拟博弈。另有衰减参数 phi 控制历史经验的遗忘速度。

关键参数：

delta（虚拟收益权重）：跨博弈估计通常接近强化学习端（delta 接近 0），但显著不等于0。
phi（衰减权重）：控制对旧经验的遗忘。信念学习常预测学习速度过快或不够尖锐（在价格匹配博弈中），与 phi < 1 一致。
EWA在经验上比纯强化学习和纯信念学习都更稳健。

改进版——功能性EWA（fEWA）：

将固定参数 delta 和 phi 替换为经验的函数，允许个体差异和跨博弈的内生变化。
phi 变为"变化检测器"函数：当其他玩家正在均衡化时趋向1，当出现意外变化时趋向0（"starting afresh"）。
delta 的功能值：PBC博弈中固定估计为0.36，功能值平均0.58；混合策略博弈中固定估计接近1，功能值平均0.89。
fEWA仅有一个自由参数（响应敏感度），比许多其他模型参数更少但拟合效果相当或更好。

模型三：策略性教学（Strategic Teaching）——Teaching

核心思想：
在重复配对（partner-matching）博弈中，成熟玩家（sophisticated players）不仅从过去学习，还会有意选择影响学习型对手未来行为的策略，从而"教导"对手。

模型机制：

借鉴重复博弈理论中的策略性前瞻（strategic foresight）思想。
假设部分玩家从过去学习但缺乏策略性前瞻（学习者），另一部分玩家认识到这一点并利用之（教师）。
教师选择当前行动时，会考虑该行动对学习型对手未来行为的影响。
学习规则本身不利用他人收益信息，也不考虑当前行动的未来效应；"教学"通过假设部分玩家意识到其他人在学习来加入成熟性。

经验证据：

在重复信任博弈中，教学对双方都有利，模型比随机均衡理论更准确。
在进入威慑博弈中，教学仅对教师有利（entry-deterrence），模型同样比随机均衡更准确。
数据来源：Camerer et al. (2002b)。

维度3：核心发现

核心发现

有限思考的普遍性： 在超过80场PBC博弈中，不同被试群体的思考步数（tau）估计值中位数仅为1.3步，说明人们的策略推理深度极为有限，远未达到纳什均衡所要求的无限递归推理。
思考步数跨群体的稳定性： 尽管被试群体差异巨大（从高中生到CEO、从70岁老人到博弈论专家），tau的估计值范围仅为1-3，且惊人地接近。分析能力更强的群体（如Caltech学生、计算机科学家）的tau略高，但差异不大。
CH模型的非对称预测优势： 在混合策略博弈中，CH模型能正确预测纳什均衡无法解释的"反常"行为模式（如非对称匹配硬币博弈中玩家1的高频H选择），同时大致保留纳什对另一位玩家的正确预测。
学习模型的谱系整合： EWA模型证明强化学习和信念学习只是同一连续体的两个极端（delta=0 vs delta=1），实际行为介于两者之间但更偏向强化学习端。
参数的跨博弈系统性变异： delta和phi的最优值在不同博弈间系统性变化，说明固定参数模型的局限性。fEWA通过将参数替换为经验函数，以更少的自由参数实现了同等或更好的预测。
策略性教学的实证支持： 在重复配对博弈中，部分玩家确实会策略性地选择影响对手未来行为的行动，这种"教学"行为在信任博弈和进入威慑博弈中都有实证支持。

方法论贡献

提出用单参数泊松分布刻画思考步数分布的简约方法。
建立了从thinking（一次性博弈）到learning（重复博弈无策略性考量）到teaching（重复博弈有策略性考量）的统一理论框架。
强调模型应同时具备"通用性"（generality）和"精确性"（precision），与均衡模型一样简约，但加入认知细节以更好拟合数据。

维度6：与其他文献的关系

直接关联

信念的层级结构： CH模型的核心是关于"信念的信念"（beliefs about beliefs）——k步玩家对其他玩家类型分布持有特定信念。这种信念层级结构与信念研究中的高阶信念（higher-order beliefs）直接相关。
信念的系统性偏差： CH模型中的k步玩家系统性地低估其他玩家的思考深度（认为所有人都比自己少想一步），这构成一种结构性的信念偏差，类似于过度自信文献中"高于平均"效应的博弈论版本。
信念更新与学习： EWA模型中的信念学习组件（fictitious play）直接涉及贝叶斯式信念更新——玩家根据观察到的对手行为更新对其策略的信念。delta参数衡量了玩家在多大程度上利用反事实信息（forgone payoffs）来更新信念。
自信与信念精度： 思考步数越高的玩家对博弈结构的理解越深，其信念越接近"正确"。但tau的泊松分布意味着绝大多数人的信念精度很低（多数人只思考1-2步），这与认知不确定性（cognitive uncertainty）文献的发现一致。

间接关联

动机性信念的潜在角色： 教学模型中的"成熟玩家"有意选择误导性行动来塑造对手的信念，这与动机性推理（motivated reasoning）文献相关——行动者有动机让他人形成特定信念。
经验与信念形成： fEWA中的"变化检测器"机制暗示，玩家的信念更新速度取决于环境的感知稳定性。这与经验效应（experience effects）和注意力分配文献相关——人们根据环境线索调整信念更新的权重。
有限注意力与信念简化： CH模型中0步玩家的随机选择可被解读为完全不关注策略互动结构，而低步数玩家的简化推理反映了有限注意力对信念形成的约束，与理性疏忽（rational inattention）模型相呼应。

对实验设计的启示

信念引出（belief elicitation）： CH模型和EWA的成功表明，在实验中直接引出被试对他人行为的信念（而不仅仅是观察其选择）可以提供关于思考深度和学习过程的额外信息。
重复博弈设计： 教学模型提示研究者在设计重复互动实验时，需要区分"学习"和"策略性教学"两种机制，这对信念更新实验的解释具有重要含义。
跨群体比较： PBC数据表明，思考步数在不同人群中差异不大，这为信念实验的外部效度提供了支持——实验室中学生被试的有限理性模式可能在其他群体中同样成立。

维度4：变量概览

变量	类型	说明
玩家在 PBC 中的选择 (0-100)	行为因变量	一次性博弈选择数据
玩家在重复博弈中的策略选择	行为因变量	多期面板数据
$\tau$ (泊松均值)	CH 模型唯一自由参数	思考步数分布参数
$\delta$ (假想收益权重)	EWA 参数	0=纯强化, 1=纯虚拟博弈
$\phi$ (吸引力衰减率)	EWA 参数	fEWA 中变为变化检测器函数
$\rho$ (经验权重折旧)	EWA 参数	控制经验积累速度
$\lambda$ (响应敏感度)	EWA 参数	logit 选择规则参数
教师比例 / 学习者比例	Sophisticated EWA	玩家类型混合分布
实验组别（被试人群）	外生分组	CEO/学生/老人/专家等

维度5：局限性

综述性质：本文为 AEA P&P 短文，未报告新实验，依赖已发表数据；许多模型细节须查阅 Camerer-Ho-Chong 工作论文系列。
CH 模型的认知机制黑箱： $\tau$ 仅是行为拟合的统计参数，未与认知能力测度（如 CRT、工作记忆、智力）直接对应；为何不同人群的 $\tau$ 差异不大缺乏机制解释。
0 步玩家的随意性：均匀随机假设虽简便，但在某些博弈中难以辩护，特别是当策略空间含有显著突出 (focal) 选项时。
教学模型的识别挑战：在数据中区分"快速学习者"和"教师"非常困难——两者在前若干期可能产生相似行动序列。
EWA 参数的跨博弈不稳定：尽管 fEWA 改善了这一问题，参数仍依赖博弈结构，限制了"个体特征"解释。
静态环境：模型假设博弈结构和对手分布稳定；对结构变化、信息冲击的反应未被建模。
缺乏神经/生理证据：所有推断仅基于行为，未联结脑成像、反应时间、眼动数据。

维度7：可拓展的研究方向

金融市场的认知层级：将 CH 模型应用于金融市场参与者，估计不同投资者群体（散户/机构/HFT）的思考步数分布，研究市场效率与 $\tau$ 分布的关系。
CH 与 motivated reasoning 的结合：研究 $\tau$ 是否随个人利益方向系统性偏移——人们是否在对自己有利方向上"少想一步"以维持便利信念。
教学与社会学习：将 Sophisticated EWA 推广到多人网络中，研究意见领袖如何策略性地塑造他人信念（与社交媒体研究关联）。
fEWA 在政策响应中的应用：用变化检测器机制建模个体对政策变化的反应——例如税率调整后多久才会"重新开始学习"。
个体特征与 $\tau$ ：通过实验外生引入认知负担、时间压力、激励变化，研究 $\tau$ 的因果决定因素。
AI 对手的影响：当人类与 AI 算法对手交互时，是否会动态调整自己的 $\tau$ ？AI 教学是否更有效？

参考文献

Binmore, K. (1988). Modeling rational players: Part II. Economics and Philosophy, 4(1), 9-55.
Camerer, C. (2003). Behavioral game theory: Experiments on strategic interaction. Princeton University Press.
Camerer, C., & Ho, T. (1999). Experience-weighted attraction learning in normal-form games. Econometrica, 67(4), 827-874.
Camerer, C., Ho, T., & Chong, J. (2002a). A cognitive hierarchy model of one-shot games. Unpublished manuscript, Caltech.
Camerer, C., Ho, T., & Chong, J. (2002b). Sophisticated EWA learning and strategic teaching in repeated games. Journal of Economic Theory, 104(1), 137-188.
Capra, C. M. (1999). Noisy expectation formation in one-shot games. Ph.D. Dissertation, University of Virginia.
Goeree, J. K., & Holt, C. A. (2001). Ten little treasures of game theory, and ten intuitive contradictions. American Economic Review, 91(5), 1402-1422.
Ho, T., Camerer, C., & Chong, J. (2002). Functional EWA: A one-parameter theory of learning in games. Unpublished manuscript, UC Berkeley.
Nagel, R. (1995). Experimental results on interactive competitive guessing. American Economic Review, 85(5), 1313-1326.
Salmon, T. (2001). An evaluation of econometric models of adaptive learning. Econometrica, 69(6), 1597-1628.
Stahl, D. (1993). Evolution of smart_n players. Games and Economic Behavior, 5(4), 604-617.
Stahl, D. (2000). Rule learning in symmetric normal-form games. Games and Economic Behavior, 32(1), 105-138.

关键结论

行为博弈论可由"thinking-learning-teaching"三模块完整覆盖：CH 模型以单参数 $\tau \approx 1.5$ 解释一次性博弈中的有限思考；EWA/fEWA 用嵌套强化与信念学习的框架刻画重复博弈学习；Sophisticated EWA 引入策略性教学描述前瞻型玩家的塑造行动。
跨群体的思考步数估计稳定在 $\tau \in [1, 3]$ ，且各模型的预测精度系统性优于纳什均衡，表明行为模型可以同时具备纳什均衡的简约性和远超均衡分析的经验解释力——为均衡分析的一般化提供了切实可行的路线。

Camerer_2003_Thinking_Learning_Teaching

Models of Thinking, Learning, and Teaching in Games

一句话总结

研究问题

核心贡献

维度1：实验设计分析

实验任务详细流程

核心实验范式一：p-beauty contest（PBC）游戏

核心实验范式二：非对称匹配硬币博弈（Asymmetric Matching-Pennies）

核心实验范式三：重复博弈中的学习与教学

样本与设计特征

维度2：理论模型

模型一：认知层级模型（Cognitive Hierarchy, CH）——Thinking

模型二：经验加权吸引力学习模型（EWA）——Learning

模型三：策略性教学（Strategic Teaching）——Teaching

维度3：核心发现

核心发现

方法论贡献

维度6：与其他文献的关系

直接关联

间接关联

对实验设计的启示

维度4：变量概览

维度5：局限性

维度7：可拓展的研究方向

参考文献

关键结论

🔗 链接到这篇笔记