Selective Memory Equilibrium

元数据

作者: Drew Fudenberg (MIT), Giacomo Lanzani (MIT), Philipp Strack (Yale)
年份: 2022
期刊/来源: Working Paper (September 15, 2022)
JEL分类: D83, D90
关键词: selective memory, memory bias, belief formation, KL divergence, overconfidence, ego-boosting bias, associativeness, extreme experience bias
论文类型: 理论论文

一句话总结

本文为具有selective memory（选择性记忆）的朴素决策者建立了"选择性记忆均衡"（selective memory equilibrium）这一统一概念，证明若行为收敛，长期信念必定集中在记忆加权KL最小化器上，从而为正向记忆偏差导致过度自信、极端经验偏差导致过度风险厌恶等多种行为现象提供了统一的微观基础。

研究问题

当决策者只能选择性地回忆过去经验，并朴素地将回忆的样本视为完整样本时，长期的信念和行为会收敛到何种均衡？
不同形式的记忆偏差（正向记忆偏差、cognitive dissonance、associativeness、interference、extreme experience bias、confirmatory bias）如何在统一框架下分析？
基于selective memory的均衡概念与已有概念（self-confirming equilibrium、Berk-Nash equilibrium）有何关系，能否为这些概念提供学习基础（learning foundation）？
当回忆经验数量在期望意义下有界（finite expected memory），并存在rehearsal效应（被回忆过的更易再次被回忆）时，长期行为频率呈现什么结构？

核心贡献

统一概念框架: 首次提出"selective memory equilibrium"，将六种主要记忆偏差（utility-dependent、ego-boosting、cognitive dissonance、associative/similarity、confirmatory、interference）纳入同一分析框架。
核心定理（Theorem 1）: 任何极限策略都是选择性记忆均衡——为多种行为均衡概念（包括Köszegi-Loewenstein-Murooka的self-esteem personal equilibrium、Berk-Nash equilibrium）提供基于记忆的learning foundation。
过度自信的内生微观基础（Proposition 2-3）: 正向记忆偏差内生地产生过度自信，但比exogenous misspecification对反馈结构的变化更敏感（"反馈三明治"效应：将负反馈与正反馈配对可减少长期偏差）。
金融解释力（Proposition 4 + 概率扭曲）: extreme experience bias可解释股权溢价之谜中的"过度风险厌恶"；rare experience bias可微观基础化prospect theory式的概率加权。
与misspecification的等价性（Proposition 6）: 一致严格意义下，selective memory equilibrium与Berk-Nash equilibrium等价，但比较静态行为不同——揭示了记忆偏差与模型误设的深层联系与本质区别。
技术贡献: 将Benaim-Hofbauer-Sorin的随机逼近技术扩展到信念在极限中保持随机的情形；用Poisson极限定理刻画finite memory下的回忆信念分布；扩展Doeblin定理到非齐次Markov链处理rehearsal效应。

维度1：模型设定

论文性质

这是一篇纯理论论文，为具有选择性记忆（selective memory）的决策者建立了一个通用的概念框架和均衡理论。

建模方法

单决策者重复决策框架: 每期 $t=1,2,...$ ，决策者观察信号 $s \in S$ ，选择行动 $a \in A$ ，产生结果 $y \in Y$ ，获得流效用 $u(s,a,y)$ 。
随机选择性记忆: 记忆通过记忆函数 $m_{s'}(s,a,y) \in [0,1]$ 建模，给出当前信号为 $s'$ 时，过去经验 $(s,a,y)$ 被回忆起来的概率。各期经验是否被回忆相互独立。
朴素贝叶斯更新: 决策者不知道自己有选择性记忆，将回忆起来的经验视为全部经验进行贝叶斯更新。
短视最优化: 决策者每期基于当前信念短视地选择最大化期望效用的行动。

核心机制

选择性记忆扭曲了决策者所回忆的经验分布，使之偏离真实经验分布
决策者的朴素性（naivete）使其将扭曲后的样本视为真实样本
长期来看，信念收敛到记忆加权KL最小化器（memory-weighted KL minimizer），即最小化真实分布的记忆加权版本与模型之间的KL散度
策略收敛到选择性记忆均衡（selective memory equilibrium），这是一种对记忆加权KL最小化器上的某个信念进行最佳响应的策略

维度2：主要结果

基本设定

信号分布 $\zeta \in \Delta(S)$ 为全支撑i.i.d.分布
真实结果分布 $p^*_{a,s}(y)$ ，决策者的先验 $\mu_0$ 定义在数据生成过程 $p \in \Delta(Y)^{A \times S}$ 上
先验支撑集 $\Theta$ ，若 $p^* \in \Theta$ 则为正确设定（correctly specified），否则为误设（misspecified）

记忆函数与回忆历史

记忆函数 $m_{s'}:S \times A \times Y \to [0,1]$ ，其中 $m_{s'}(s,a,y)$ 是当前信号为 $s'$ 时回忆起过去经验 $(s,a,y)$ 的概率。

信念更新公式（公式1）:
$ $\mu(C|h_t(r_t)) = \frac{\int_{p \in C} \prod_{\tau \in r_t} p_{a_\tau, s_\tau}(y_\tau) d\mu(p)}{\int_\Theta \prod_{\tau \in r_t} p_{a_\tau, s_\tau}(y_\tau) d\mu(p)}, \quad \forall C \subseteq \Theta$ $

记忆加权KL最小化器（Definition核心）

对于策略 $\sigma$ 和信号 $s'$ ，记忆加权KL最小化器定义为（公式2）:
$ $KL^{\Theta,m}_{s'}(\sigma) = \underset{p \in \Theta}{\text{argmin}} \left( -\sum_{s \in S} \zeta(s) \sum_{y \in Y} m_{s'}(s,\sigma(s),y) p^*_{\sigma(s),s}(y) \log p_{\sigma(s),s}(y) \right)$ $

这是 $\Theta$ 中最大化记忆加权结果分布的对数似然的元素。

选择性记忆均衡（Definition 2）

策略 $\sigma$ 是选择性记忆均衡，如果对所有 $s \in S$ ，存在 $\nu_s \in \Delta(KL^{\Theta,m}_s(\sigma))$ 使得 $\sigma(s) \in BR(s, \nu_s)$ 。

一致严格选择性记忆均衡: 对所有 $s \in S$ 和所有 $\nu \in \Delta(KL^{\Theta,m}_s(\sigma))$ ， $\{\sigma(s)\} = BR(s, \nu)$ 。

自确认均衡（Definition 3）

策略 $\sigma$ 是自确认均衡，如果存在 $\nu \in \Delta(\Theta)$ 使得对所有 $s \in S$ 和 $p \in \text{supp}(\nu)$ ， $p_{\sigma(s),s} = p^*_{\sigma(s),s}$ 且 $\sigma(s) \in BR(s, \nu)$ 。

Berk-Nash均衡（Definition 4）

当记忆函数 $m \equiv 1$ （无选择性记忆）时的特殊情形:
$ $KL^{\Theta,1}(\sigma) = \underset{p \in \Theta}{\text{argmin}} \left( -\sum_{s \in S} \zeta(s) \sum_{y \in Y} p^*_{\sigma(s),s}(y) \log p_{\sigma(s),s}(y) \right)$ $

有限期望记忆模型

记忆函数随时间衰减（公式6）:
$ $m_{t+1}(a,y) = \min\{1, k/t\} \cdot m(a,y)$ $

在此设定下，回忆经验数量的期望值有界（不超过 $k$ ），行动频率收敛到随机记忆均衡（stochastic memory equilibrium, Definition 6）。

排练效应（Rehearsal）

排练记忆函数（公式8）:
$ $m_{t+1}(a,y|(r_t,(a_t,y_t))) = \min\{1, k/t\} \left(m(a,y) + R \cdot \mathbf{1}_{(a,y) \in r_t \cup \{(a_t,y_t)\}}\right)$ $
其中 $R$ 为排练参数，被回忆过的经验更容易再次被回忆。

维度3：数值分析与校准

主要定理

Theorem 1: 每个极限策略（limit strategy）都是选择性记忆均衡。

当决策者采用固定策略时，经验分布收敛，回忆经验的分布也收敛到确定性极限，其中最佳拟合模型即为记忆加权KL最小化器。

Theorem 2: 若行动频率 $\alpha_t \to \alpha$ 以正概率成立，则 $\alpha$ 是随机记忆均衡。

适用于有限期望记忆的情形，使用Poisson极限定理和随机逼近技术。

Theorem 3: 若行动频率 $\alpha_t \to \alpha$ 以正概率成立，则 $\alpha$ 是遍历记忆均衡（ergodic memory equilibrium）。

适用于包含排练效应的模型。

关于具体记忆偏差的命题

Proposition 1（相似性加权记忆）: 对于正确设定的决策者，如果记忆是相似性加权的（Example 4），策略是选择性记忆均衡当且仅当它是自确认均衡。

相似性加权不改变正确设定者的均衡集。

Proposition 2（自我膨胀偏差与过度自信）: 当记忆函数 $m'(a,y) = f(y)m(a,y)$ （ $f$ 递增）、效用函数 $u(a,y)$ 超模、 $\Theta = \Delta(\Delta(Y))$ 时，更强的正向记忆偏差导致更高的长期信念和更高的极限行动。

提供了过度自信的记忆基础微观基础。

Proposition 3（自我膨胀与错误归因）: 在二维结果空间中，自我膨胀记忆偏差导致决策者高估自己能力 $p_1$ 并低估合作者能力 $q$ 。

Proposition 4（极端经验偏差）: 若结果分布对称且决策者有极端经验偏差，如果选择彩票不是自确认均衡，它就不是有极端经验偏差的选择性记忆均衡。

极端经验偏差使环境看起来比实际更有风险，可解释过度风险厌恶。

Proposition 5（低推断）: 若 $\sigma$ 是具有低推断扭曲 $m$ 的极限策略，则它是具有记忆函数 $m$ 的选择性记忆均衡。

Proposition 6（与Berk-Nash均衡的等价性）:

每个一致严格Berk-Nash均衡在信念意义上等价于某个记忆函数的选择性记忆均衡。
每个一致严格选择性记忆均衡在信念意义上等价于某个Berk-Nash均衡。

Proposition 8（部分朴素性）: 当决策者部分朴素时，每个极限策略仍是选择性记忆均衡。

核心结论总结

选择性记忆可以产生持久的行为偏差: 若所有经验被等概率回忆，记忆限制无长期影响；但若记忆有选择性，偏差会持续存在。
过度自信的记忆基础: 正向记忆偏差内生地产生过度自信行为，但与外生误设相比，对信息结构变化的比较静态不同（如"反馈三明治"效应）。
极端经验偏差与风险态度: 可解释金融市场中表观极端风险厌恶的"股权溢价之谜"。
稀有经验偏差与概率扭曲: 若稀有经验更容易被记住，决策者会过度加权小概率事件，类似前景理论的概率加权。
朴素性的关键作用: 只有朴素性（不知道记忆有选择性）与选择性记忆的结合才会扭曲长期信念；若决策者完全了解自己的记忆函数且正确设定，任何对真实数据生成过程最优的行动都是选择性记忆均衡。

维度5：与其他文献的关系

在行为经济学理论中的位置

本文处于有限理性决策理论与学习理论的交叉领域，是第一篇系统研究选择性记忆长期影响的论文。

与关键文献的关系

文献	关系
Berk (1966)	本文将Berk的KL散度收敛结果从完美记忆扩展到选择性记忆，决策者行动可影响观察
Esponda & Pouzo (2016); Fudenberg, Lanzani & Strack (2021a)	Berk-Nash均衡是选择性记忆均衡在记忆完美时的特例；Proposition 6建立了两者在一致严格条件下的等价性
Fudenberg & Levine (1993)	自确认均衡（SCE）是长期贝叶斯学习的稳态；本文证明选择性记忆均衡一般不化约为SCE
Mullainathan (2002)	早期选择性记忆模型，假设信号正态且外生；本文模型更一般，允许行动影响观察，且关注长期影响
Bordalo, Gennaioli & Shleifer (2020)	相似性加权（similarity weighting）；本文证明最简单形式的相似性加权不改变正确设定者的均衡集
Bordalo, Conlon, Gennaioli, Kwon & Shleifer (2021)	干扰（interference）模型；本文将其作为选择性记忆的一个特例
Koszegi, Loewenstein & Murooka (2021)	自尊个人均衡；Theorem 1证明任何长期学习结果必须是此类均衡
Schwartzstein (2014)	基于注意力的信念形成；选择性记忆可涵盖与信息内容无关的偏差（如自我膨胀）
Zimmermann (2020); Godker, Jiao & Smeets (2022)	提供了选择性记忆（正向偏差）的实验和实地证据，验证了本文的理论预测
Heidhues, Koszegi & Strack (2018)	外生过度自信下的归因偏差；本文从记忆偏差内生导出类似结论
Weitzman (2007)	悲观先验解释股权溢价之谜；本文用有限期望记忆+极端经验偏差提供替代解释
Phillips & Edwards (1966)	低推断（underinference）现象；Proposition 5证明与选择性记忆产生相同的长期预测

方法论贡献

将Benaim, Hofbauer & Sorin (2005)的随机逼近技术扩展到信念在极限中保持随机的情形
使用Poisson极限定理刻画有限记忆容量下回忆信念的分布
扩展Doeblin定理到非齐次Markov链以处理排练效应

核心创新

本文的核心贡献在于提供了一个统一框架，可以分析多种已有记录的记忆偏差（正向记忆偏差、联想性、干扰、极端经验偏差、确认偏差）的长期决策后果，并揭示了选择性记忆与模型误设之间的深层联系与关键区别。

维度4：局限性

朴素性假设过强: 决策者完全不知道自己有selective memory（naive about memory bias）。Appendix扩展讨论了部分朴素性（partial naivete），但完全naive假设在某些情境下仍可能与现实不符（人们对自己记忆偏差有部分察觉）。
记忆函数外生: 记忆函数 $m_{s'}(s,a,y)$ 被视为外生且固定，未内生化为效用最大化或资源约束的产物（与Bénabou-Tirole的motivated memory形成对比）。
myopic决策假设: 决策者每期短视最优化，忽略学习的长期价值。若决策者前瞻（forward-looking），可能会战略性地选择能产生有利记忆的行动。
i.i.d.信号假设: 信号分布 $\zeta$ 是i.i.d.全支撑的，未涵盖具有时间依赖结构（如AR(1)、Markov切换）的环境。
纯策略限制: optimal policy要求选择纯策略，不允许混合，限制了与某些经典均衡概念的连接。
参数化记忆函数难校准: 虽给出多种记忆函数族示例，但具体形状（如 $\Phi$ 的曲率、信号相似度量 $d$ ）在实证中难以唯一识别。
缺乏直接行为实验验证: 全文为理论，依赖外部实验（Zimmermann 2020; Gödker, Jiao, Smeets 2022）作为微观证据，但定理的具体均衡选择预测尚未被实验直接检验。

维度6：可拓展的研究方向

内生化记忆函数: 将 $m$ 视为决策者基于动机或注意力资源约束的最优选择（结合 Benabou_Tirole_2016_MindfulEconomics_Beliefs 的motivated memory框架）。
战略性环境: 将单决策者扩展到博弈，研究有selective memory的玩家的博弈均衡（如何影响learning in games的收敛）。
市场层面应用: 将本文框架嵌入资产定价模型，量化extreme experience bias对equity premium的解释力，与extrapolation-based asset pricing（AssetPricing_2022_ReturnExtrapolation、Barberis_2015_XCAPM_Extrapolative）比较。
结构估计: 从面板数据（如投资者交易记录）中识别和估计记忆函数参数（与 Godker_Jiao_2025_InvestorMemory 的实证策略结合）。
政策干预设计: 利用"反馈三明治"机制设计反偏差信息环境（如金融教育、绩效反馈的呈现顺序）。
与机器学习的对应: selective memory与experience replay、prioritized sampling等强化学习技术存在结构对应，可借鉴ML文献分析long-run learning dynamics。
跨期记忆衰减: 整合Malmendier-Nagel的experience effects（Malmendier_2020_InvestorExperiences_MarketDynamics、Malmendier_ExperienceEffects_Finance）的年龄加权，与本文的i.i.d.记忆函数对比。
其他记忆偏差: 如nostalgia bias、source-monitoring errors、false memories等纳入框架。

六种记忆偏差示例

效用依赖记忆 (Example 1): $m_{s'}(s,a,y) = \Phi(u(s,a,y))$
正向记忆偏差 (Example 2): $m_{s'}(s,a,y) = \Phi(y_1)$ ， $\Phi$ 递增
认知失调/事后遗憾 (Example 3): $m_{s'}(s,a,y) = \Phi(\max_{a'} u(s,a',y) - u(s,a,y))$ ， $\Phi$ 递减
联想性记忆/相似性加权 (Example 4): $m_{s'}(s,a,y) = \Phi(d(s,s'))$ ， $\Phi$ 递减
确认偏差 (Example 5): 先验认为更可能的假设下更可能的结果更容易被记住
干扰 (Example 6): $m(a,y) = f(\mathbb{P}[y^1], \mathbb{P}[y^2], ...)$ ， $f$ 递减，稀有特征更易记忆

关键结论

若行为收敛，长期信念必为memory-weighted KL minimizer，长期策略必为selective memory equilibrium（Theorem 1）——这是本文的核心定理，将贝叶斯学习的Berk收敛结果扩展至selective memory + naive updating情境。
正向记忆偏差等价于内生过度自信：在固定学习环境下，selective memory equilibrium的极限行为与"教条式过度自信"（dogmatic overconfidence）相同；但二者在反馈结构改变下的比较静态不同——结合正负反馈可削弱记忆型过度自信，但对外生过度自信无效（"反馈三明治"效应）。
极端经验偏差解释金融市场的过度风险厌恶：moderate risk aversion + extreme experience bias可重现safe与risky资产价格揭示的极端风险厌恶，提供股权溢价之谜的新解释（替代Weitzman 2007的悲观先验解释）。
稀有经验偏差产生prospect theory式概率扭曲：若稀有事件更易回忆，决策者过度加权小概率事件——为概率加权函数提供记忆基础。
相似性加权对正确设定者无影响（Proposition 1）：similarity-weighted memory下，正确设定的决策者的selective memory equilibrium集合等于self-confirming equilibrium集合——揭示了associativeness的"良性"性质。
selective memory与misspecification的等价但有别：在uniformly strict意义下二者均衡集合一一对应（Proposition 6），但对环境（信息结构、反馈）的比较静态响应不同——为区分两类机制提供实证identification策略。
finite expected memory产生stochastic equilibrium：当回忆数量有界时，信念不再收敛为确定性极限，长期行动频率收敛到stochastic memory equilibrium（Theorem 2）；rehearsal效应进一步要求遍历记忆均衡（ergodic memory equilibrium，Theorem 3）。
朴素性是关键：完全了解自己记忆函数的正确设定者，任何对真实数据生成过程最优的行动都是均衡——naivete + selective memory缺一不可才能产生持久行为偏差。

Fudenberg_Lanzani_2022_SelectiveMemoryEquilibrium