Memory and Generative AI

基本信息

作者: Xingjian Zheng (Shanghai Advanced Institute of Finance, SJTU)
年份: 2025 (December 12, 2025)
期刊/状态: Job Market Paper (Working Paper)
DOI/链接: Fine-tuning dataset: https://huggingface.co/xjzheng

一句话总结

通过将 Kuhnen-Knutson 联想线索范式系统性地应用于 8 个 GPT 模型并辅以"知识注入"微调实验，因果性地证明生成式 AI 利用与决策无关的"记忆"做出投资决策——正面情感线索使 GAI 即使保持完美贝叶斯信念也增加 17.7% 的选股概率，且记忆效应跨越领域（餐饮评论影响金融决策），挑战了人类经验效应的领域特异性假说。

研究问题

生成式 AI（LLM）作为经济代理人在金融决策中是否表现出类人偏差？这些偏差是否由"记忆"驱动？
与决策上下文无关的情感线索（图片）能否影响 GAI 的投资选择？影响的是选择本身还是底层信念？
通过微调技术直接操纵 GAI 的"记忆"内容能否因果性地改变其投资行为与回报预测？
记忆的影响是否具有领域特异性（如 Malmendier 2021 主张），还是会跨域溢出？
AI 记忆驱动行为的理论机制是什么——能否在 transformer 注意力机制中找到对应？

核心贡献

首次将神经经济学的人类联想线索范式系统性应用于 LLM：复制并扩展 Kuhnen & Knutson (2011) 的实验，建立 8 个 GPT 模型 + Claude/Gemini 的可比性基准，4,800+ 观测值。
完整因果链条：从相关性（图片线索实验）到因果性（知识注入微调），再到经济含义（风险偏好、回报预测、组合表现），方法学突破在于使用 Mecklenburg et al. (2024) 的微调技术直接"注入"记忆而非依赖提示工程。
跨域记忆溢出的发现：Yelp 餐饮评论微调显著改变金融投资决策（差异 13 pp），与金融新闻微调的差异（16 pp）相当甚至更显著，挑战了 Malmendier (2021) 的领域特异性假说。
选择与信念的脱节：记忆/线索影响投资选择但不改变贝叶斯概率估计，揭示 GAI 决策处于"快思考"模式——这与 Bordalo et al. (2024a) 关于人类联想记忆影响信念的发现形成有趣对比。
构建首个基于注意力机制的 AI 记忆经济模型：将 transformer 自注意力 ( $\alpha_i \propto \exp(\beta \langle q, k_i \rangle)$ ) 与心理学联想记忆理论统一，给出可检验的命题（Theorem 6.1-6.3，包括视觉 vs. 文本线索差异、推理能力与偏差非单调关系、跨域溢出条件）。
市场层面经济含义：正面/负面记忆模型构造的多空组合在 2024 年 6 月后显著分化，记忆组合整体优于 RavenPack 情感策略，对 LLM 在量化投资中的应用具有直接政策含义。

摘要

生成式AI (GAI) 日益被用作经济代理人，但其金融决策规则鲜为人知。本文利用新颖的实验设计，展示GAI利用"记忆"进行决策，即使这些记忆与当前决策领域无关。当被给予正面情感内容的图片线索时，GAI即便能形成完美的贝叶斯信念，也会做出更偏好风险的投资选择。通过"知识注入"(knowledge injection)微调技术因果性地操纵模型记忆后，记忆驱动行为显著影响了AI代理人的投资决策和股票回报预测，产生与记忆效价方向一致的显著偏差。作者最终构建了一个基于记忆的经济模型来解释GAI投资行为。

维度1：实验设计分析

实验任务详细流程

本文包含三个层次的实验/实证分析：(1) 主实验——联想线索与投资决策；(2) 因果识别——知识注入微调实验；(3) 经济含义测试——风险偏好测量与回报预测。

第一部分：主实验（联想线索实验）

实验范式来源: 复制并扩展 Kuhnen and Knutson (2011) 的实验设计，该设计原本用于研究人类的情绪与投资决策。

被试: 8个GPT模型（GPT-5系列的full/mini/nano、GPT-4.1系列的full/mini/nano、GPT-4o的full/mini），每个模型完成100个独立学习区块(learning block)，共800个学习区块。

每个学习区块的完整流程（6个trial）:

实验开始——发送实验指令: 向GPT模型发送详细的实验指令，解释整个实验的设置和规则。
资产结构说明: 两种资产可供选择：
- 债券: 固定收益$3
- 股票: 来自"好"分布（75%概率+$10，25%概率-$10）或"坏"分布（25%概率+$10，75%概率-$10），在每个学习区块开始前随机等概率确定，6个trial内不变
每个Trial的完整序列（重复6次）:

步骤1 — 图像呈现与联想回忆: 向模型展示一张从Google Images随机选取的图片，并要求进行联想回忆。提示语为："Now look at this picture first before you make investment decisions. What past events or memories does this picture bring to mind?" 明确告知图片与投资决策无关。

步骤2 — 投资决策: 以纯文本形式（与图片分开提问，避免多模态干扰）询问模型选择投资股票还是债券。提示语为："Do you want to invest in a stock or a bond? Only reply with 'stock' or 'bond'."

步骤3 — 揭示股票实际收益: 告知模型该trial的股票实际收益（+$10或-$10），以及选择该资产后的实际投资回报。

步骤4 — 显示累计投资回报: 展示从第一个trial开始的累计投资收益。

步骤5 — 概率估计: 要求模型估计股票来自"好"分布的概率。提示语为："What do you think is the probability that the stock is the good stock?"

步骤6 — 置信度评估: 要求模型对自己概率估计的置信度进行评分。提示语为："How much do you trust your ability to come up with the correct probability estimate that the stock is good?"
区块结束与刷新: 完成6个trial后，清空聊天历史（"短期记忆"），开始新的学习区块。

关键设计特征:

在每个学习区块内，模型保留完整的聊天历史（包括指令、图片、所有历史选择和回报），模拟"短期记忆"
区块之间聊天历史完全刷新，保证独立性
使用base64编码压缩图片，每个trial约消耗10K tokens
GPT模型的128K+ tokens上下文窗口足以容纳一个完整学习区块

图片线索的构建（Section 2.2）:

从Wikipedia情感类别页面选取29个子类别的情感词汇（从焦虑、抑郁到幸福、爱等）
使用这些词汇在Google Images搜索相关图片
同时收集中性图片（椅子、桌子、台灯等日常物品）
按5个主题分类：天气（含污染）、恐怖主义、体育、金融市场、其他
共691张图片
效价评分: 10名人类志愿者对每张图片进行-2到+2的效价评分，取平均值作为关键自变量
AI也被要求对图片进行效价评分，结果与人类评分高度相关

激励机制: 模拟真实实验设置，提供假设性报酬：

出场费$15
投资回报累计的1/20
概率估计准确度奖励：每次估计值在正确值5%以内则额外$1
总报酬 = 出场费 + $(1/20) x (总投资收益 + 准确预测次数)

第二部分：知识注入微调实验

目的: 因果性地验证记忆驱动GAI决策的机制。

微调对象: GPT-4o-mini（基于Mecklenburg et al., 2024的方法论）

2 x 2设计: 微调语料 x 情感方向

金融新闻记忆模型:
- 正面模型：注入9,987篇正面虚构金融新闻（基于RavenPack情感评分>0.9的2023年真实新闻生成）
- 负面模型：注入2,713篇负面虚构金融新闻（情感评分<-0.9）
Yelp餐饮评论记忆模型:
- 正面模型：注入3,991篇正面虚构Yelp评论（来自Kaggle数据集）
- 负面模型：注入4,009篇负面虚构Yelp评论

使用虚构内容的原因: 避免数据泄露问题（模型可能已训练过真实新闻）；半数虚构新闻中的公司名在现实中不存在。

微调后的实验设计:

3个刺激组：负面线索、无线索、正面线索
线索为样本外的金融新闻或Yelp评论（而非图片，因OpenAI限制微调模型的多模态能力）
每个模型 x 每个刺激组运行100次迭代
其他实验规格不变

第三部分：风险偏好测量（Section 5.1）

对4个微调模型（无线索暴露）进行5项风险偏好任务：

直接偏好引出: 模型自报风险偏好（风险厌恶/中性/爱好）
问卷任务: 模型在0-10量表上评估自己的风险爱好水平（Falk et al., 2018）
Gneezy-Potters任务: 将禀赋投入67%概率亏损、33%概率赢2.5倍的风险资产
Eckel-Grossman任务: 从6个风险递增的投资选项中选择
真实投资场景: 在S&P500指数基金与无风险国债间分配投资组合

第四部分：回报预测实验（Section 5.2）

复制 Lopez-Lira and Tang (2025) 的设定
4个微调模型对S&P500成分股的新闻标题分类（好/坏/不确定）
样本期：2024年1月-12月（超出GPT-4o-mini知识截止日期）
数据来源：RavenPack DJPR版
转换为投资评分：No=-1, Unknown=0, Yes=1
构建5分位多空组合，每日再平衡

其他实验设计要素

实验类型: 以AI（LLM）为被试的行为实验 + 因果推断（微调）+ 实证资产定价分析

Treatment设计:

主实验：图片情感效价（-2到+2连续变量，分为10个十分位组）作为处理变量
微调实验：2 x 2 x 3设计（金融vs.Yelp语料 x 正面vs.负面记忆 x 正面/无/负面线索）

随机化:

图片在每个trial中随机分配
股票类型（好/坏）在每个学习区块开始时等概率随机确定
股息实现按对应概率随机生成

观测变量:

因变量：IsStockChoice（是否选择股票的二元变量）、主观概率估计、置信度
自变量：ValenceDec（效价十分位）、IsPosMem（是否正面记忆模型）、IsCue/IsPosCue（线索类型）
控制变量：上一轮的股票选择、主观概率、累计投资回报、置信度

因果识别策略:

主实验：图片线索的外生随机分配 + 贝叶斯理性基准对比
微调实验：通过知识注入直接操纵模型"记忆"，在保持其他能力不变的情况下改变记忆内容，形成干净的因果推断
固定效应：区块固定效应、模型固定效应（主实验）；语料固定效应、线索固定效应（微调实验）
聚类标准误：在区块层面和模型层面双重聚类

样本量:

主实验：8个模型 x 100个区块 x 6个trial = 4,800个观测值
微调实验：4个模型 x 3个刺激组 x 100次迭代 x 6个trial（约7,200个观测值）
风险偏好任务：每项任务每个模型100次迭代
回报预测：S&P500成分股 x 2024全年日度新闻

激励机制: 假设性金钱激励（模拟真实实验的报酬结构）。虽然AI不需要真实金钱激励，但研究表明假设性报酬、提示工程技巧（如jailbreak、tipping）可有效改善LLM响应质量。

亮点:

新颖的实验范式: 首次将神经科学/行为经济学的人类实验范式（Kuhnen & Knutson, 2011）系统性地应用于AI代理人，建立了人类与AI行为的可比性基准
多模态线索设计: 使用图片而非文本作为情感线索，利用视觉刺激更强的显著性触发更强的联想回忆效应
跨域记忆影响: 通过Yelp餐饮评论影响金融决策，证明记忆效应不受"领域特异性"约束，这对Malmendier (2021)的经验效应理论构成挑战
因果链条完整: 从相关性（图片线索实验）到因果性（知识注入微调），再到经济含义（风险偏好、回报预测），逻辑链条清晰
贝叶斯基准: 实验设计允许计算客观贝叶斯后验概率作为理性基准，可精确度量偏差大小
外部效度: 在8个GPT模型外，还在Claude-3-Haiku和Gemini-2.0-flash-light上复制了类似结果

局限:

AI并非真正的人类被试，结果的外推性需谨慎——论文明确声明不将结果解释为AI具有真实情感
假设性激励对AI的有效性存疑（虽然论文给出了证据）
微调实验仅在GPT-4o-mini上进行，未覆盖所有模型
正面与负面新闻数量不平衡（9,987 vs. 2,713），虽通过调整训练epochs缓解
由于OpenAI限制，微调模型不支持图片输入，因此微调实验使用文本线索而非图片
模型版本快速迭代，结果可能在未来版本中变化

维度2：理论模型

基准理论

贝叶斯理性基准: 在n次试验中观察到k次$10收益后，股票来自"好"分布的客观贝叶斯后验概率为：

P(\text{good} | k, n) = \frac{1}{1 + 3^{(n-2k)}}

这来自先验概率各50%和似然比的标准贝叶斯更新。

联想记忆理论（Cued Recall框架）: 建立在 Bordalo et al. (2024a), Wachter and Kahana (2024) 的选择性回忆框架之上，将AI代理人视为统计联想引擎。

行为偏差形式化——记忆驱动的AI决策模型（Section 6）

模型设定:

记忆定义: AI代理人的"记忆"是N个经验片段的离散集合：
$ $\mathcal{M} = \{(k_i, v_i)\}_{i=1}^{N}$ $
其中 $k_i \in \mathbb{R}^d$ 为语义特征向量（键）， $v_i \in \mathbb{R}$ 为结果效价值（+1为正面，-1为负面）。

查询分解: 当前上下文查询向量 $q \in \mathbb{R}^d$ 分解为：
$ $q = q_{task} + \lambda \cdot q_{cue}$ $
其中 $q_{task}$ 为核心决策任务， $q_{cue}$ 为外生情感刺激， $\lambda \geq 0$ 为线索强度参数。

注意力机制（基于Vaswani et al., 2017）: 记忆 $i$ 对当前查询 $q$ 的相关性权重：
$ $\alpha_i(q; \beta) = \frac{\exp(\beta \cdot \langle q, k_i \rangle)}{\sum_{j=1}^{N} \exp(\beta \cdot \langle q, k_j \rangle)}$ $
其中 $\beta > 0$ 为逆温度参数（代理模型推理能力/精度）。

估值函数: 代理人对前景的预测估值为注意力加权的记忆值之和：
$ $\hat{y}(q) = \sum_{i=1}^{N} \alpha_i(q; \beta) \cdot v_i$ $

当 $\hat{y}(q)$ 相对于任务的基本面期望值向上偏移时，代理人表现出风险偏好行为。

关键理论结果

Proposition 1（估值敏感性）: 估值对查询向量变化的敏感性为：
$ $\nabla_q \hat{y}(q) = \beta \cdot \text{Cov}_\alpha(V, K) = \beta \sum_{i=1}^{N} \alpha_i(q)(v_i - \hat{y}(q))k_i$ $
边际估值变化取决于记忆语义特征(K)与存储值(V)在注意力分布下的协方差。

Theorem 6.1（正面线索导致风险偏好）: 若注入的线索 $q_{cue}$ 为"正面"的（即 $\text{Cov}_\alpha(V, \langle q_{cue}, K \rangle) > 0$ ，与高价值记忆子空间有正余弦相似度），则线索的引入严格增加代理人估值 $\hat{y}$ ，导致风险偏好行为。

Lemma 6.1（视觉线索优于文本线索）: 若视觉与文本线索传达相同语义内容（余弦相似度相等），但视觉token的期望范数更大（ $\|q_{img}\| > \|q_{txt}\|$ ），则视觉线索产生严格更大的偏差。这解释了实验中使用图片线索而非文本线索的设计选择。

Theorem 6.2（推理能力与偏差的非单调关系）: 情感线索导致的偏差在推理参数 $\beta$ 上是非单调的。当 $\beta \to \infty$ （完美推理），若任务相关记忆与线索相关记忆不同，则偏差趋于零。这解释了o1模型和Chain-of-Thought增强后的GPT-4o偏差更小的现象。

Theorem 6.3（跨域溢出效应）: 跨域溢出受线索向量在记忆空间值梯度上的投影约束。若 $q_{cue}$ 与该梯度完全正交，则无论线索情感如何，都不会产生偏差。但在实际中，LLM嵌入空间中正面情感的方向在餐饮和金融领域间大致共线（ $\cos(\theta) > 0$ ），因此跨域影响不可忽略。

关键假设

AI代理人的决策可类比为基于注意力机制的记忆检索过程
模型的训练数据/参数权重构成其"长期记忆"
聊天历史构成其"短期记忆"
情感线索通过改变查询向量在嵌入空间中的位置来影响记忆检索
不同领域的正面/负面语义在LLM潜在空间中共享相似方向

可检验预测

正面（负面）情感线索增加（减少）AI选择风险资产的概率 --> 已验证
线索影响投资选择但不影响概率信念估计 --> 已验证
注入正面（负面）记忆的模型整体更偏好（厌恶）风险 --> 已验证
跨领域记忆（如餐饮评论）也能影响金融决策 --> 已验证
推理能力更强的模型（更高 $\beta$ ）偏差更小 --> 已验证（o1模型和CoT结果）
视觉线索产生的偏差大于等价文本线索 --> 理论预测，未直接在实验中对比

维度3：核心发现

发现1：联想线索显著影响AI投资选择

核心效应: 图片效价十分位(ValenceDec)的回归系数为 0.0177（t=2.59, Table 2 Column 4），即效价每增加一个十分位，选择股票的概率增加1.77个百分点
总效应: 从最低效价到最高效价（10个十分位），选择股票的概率增加约 17.7%（从~40%到~52%）
描述性统计: 效价-2的图片对应选股概率约0.40，效价+2对应约0.52
贝叶斯理性基准: 无论效价如何，贝叶斯理性选择的斜率为-0.01（t=-0.04），几乎为零，证实偏差并非来自信息内容
稳健性: 在ObjProb<0.2和>0.8的子样本中均显著；早期试验(#1-3)和晚期试验(#4-6)均显著；恐怖主义、体育、金融市场、其他主题均显著（天气主题不显著）

发现2：线索不影响概率信念估计

主观概率估计在10个效价分组中几乎无变化，均在0.50附近（回归斜率0.003，R^2=0）
信念估计表现出类似前景理论"四重模式"(four-fold pattern)的特征：低客观概率时高估，高客观概率时低估
信念估计的置信度不受情感线索影响
关键含义: 选择与信念的脱节——交易决策由记忆驱动，而非由显性信念驱动

发现3：知识注入因果性地改变投资行为

金融新闻微调模型:

正面记忆模型投资股票概率: 0.65 (SD=0.01)
负面记忆模型投资股票概率: 0.49 (SD=0.03)
差异: 16个百分点

Yelp评论微调模型（跨域效应）:

正面记忆模型投资股票概率: 0.49 (SD=0.06)
负面记忆模型投资股票概率: 0.36 (SD=0.10)
差异: 13个百分点，效应甚至比金融领域更显著（挑战了Malmendier, 2021的领域特异性假说）

回归结果（Table 4）: IsPosMem系数为 0.14（t=18.90, Column 1），正面记忆模型平均多14.47%概率选择股票

线索与记忆的非对称交互（Table 5）:

联想线索整体降低投资倾向（IsCue系数=-0.05, t=-6.71）
负面记忆模型对线索反应更强烈——无论正面还是负面线索都使其更保守
正面记忆模型对正面线索反应更积极

发现4：记忆改变风险偏好

5项风险偏好任务一致结果（Table 6）:

偏好自评: 正面模型100/100次自评为risk-loving；负面金融模型仅65次risk-loving
问卷评分: 正面模型8.07-8.13（SD 0.38-0.54）vs. 负面模型5.08-6.15（SD 1.24-1.27）
Gneezy-Potters任务: 正面金融模型投资均值6.92 vs. 负面3.45（基准禀赋下）
Eckel-Grossman任务: 正面金融模型选择5.00 vs. 负面4.58
真实投资任务: 正面金融模型投资73.44 vs. 负面65.02（基准100）

发现5：记忆影响回报预测与组合表现

投资评分差异（Table 7）:

正面金融记忆模型平均投资评分: 0.22 (SD=0.86)
负面金融记忆模型平均投资评分: -0.38 (SD=0.80)
RavenPack基准: 0.03 (SD=0.39)

组合表现: 正面和负面记忆组合在2024年6月前表现相似，之后显著分化。记忆组合整体优于RavenPack情感策略。负面模型过度悲观导致对已定价的正面新闻产生短期反转。

稳健性检验

跨模型: 8个GPT模型结果一致，Claude-3和Gemini-2.0也得到类似结果
跨子样本: 不同客观概率水平、不同试验阶段（早期vs.晚期）、不同图片主题均稳健
Probit回归: 结果更显著
原始Kuhnen & Knutson (2011)回归规格: 结果类似
能力测试: BIG-Bench Lite评估显示不同效价组的模型能力无显著差异，排除了"线索改变模型智能"的替代假说
Chain-of-Thought / 推理模型（o1）: 使用CoT后偏差几乎消失，与理论预测一致

与其他研究的比较

比较维度	本文发现	人类实验结果
线索对投资选择的影响	正面线索增加选股概率17.7%	Kuhnen & Knutson (2011): 类似方向但效应大小不同
线索对信念的影响	不影响概率信念	Bordalo et al. (2024a): 线索影响人类信念
概率估计偏差模式	四重模式（低估高概率，高估低概率）	Kahneman & Tversky (2013): 人类呈现相同模式但偏差更大
领域特异性	跨域效应显著（Yelp影响金融）	Malmendier (2021): 人类经验效应具有领域特异性
记忆化问题	不同于Lopez-Lira & Tang (2025)的前瞻偏差	N/A

维度6：与其他文献的关系

领域位置

本文处于行为金融学/实验经济学与AI经济学的交叉前沿。具体而言，位于以下三个文献的交汇处：

GAI理性与行为偏差: 研究AI代理人是否表现出类人偏差的新兴领域
联想记忆与经济决策: 心理学/神经经济学中关于记忆如何影响风险决策的经典文献
AI在金融中的应用: 利用LLM进行投资决策和回报预测的应用文献

对话论文

核心对话论文:

Kuhnen and Knutson (2011): 本文实验范式的直接来源，原始人类神经经济学实验
Bordalo et al. (2024a): 联想记忆与经济决策的理论框架，本文将其从人类扩展到AI
Wachter and Kahana (2024): 记忆模型在金融中的应用
Ouyang et al. (2025): AI风险偏好的测量方法，本文微调后的风险偏好测试直接借鉴

AI行为偏差文献:

Bini et al. (2024), Chen et al. (2024), Fedyk et al. (2024), Leng (2024), Ross et al. (2024): AI代理人的各种行为偏差
Horton (2023): GAI作为实验的homo economicus
Bybee (2025): LLM记忆与经济调查信念的关系（本文有不同发现）

AI金融应用文献:

Lopez-Lira and Tang (2025): ChatGPT预测股票回报（本文复制并扩展）
Chen et al. (2022), Lu et al. (2024): GAI在金融预测中的应用
Mecklenburg et al. (2024): 知识注入微调方法论来源

记忆与投资行为文献:

Malmendier (2021): 经验效应的领域特异性（本文挑战其结论）
Kuhnen (2015), Kuhnen and Miu (2017): 情感与投资决策
Enke et al. (2024), Enke and Graeber (2023): 认知不确定性与决策

新贡献

首次系统性地将联想记忆机制应用于理解GAI的金融决策偏差: 不仅记录偏差的存在，更揭示了"记忆"作为根本性机制的作用
因果识别: 通过知识注入微调技术（而非简单的提示词工程），首次因果性地展示记忆对AI投资决策的影响
跨域记忆溢出的发现: 证明与决策领域完全无关的记忆（餐饮评论）也能显著改变金融决策，挑战了人类经验效应的领域特异性假说
选择与信念的脱节: 发现GAI的投资选择受记忆/线索影响，但概率信念不受影响，暗示GAI在"快思考"模式下决策
构建了首个基于注意力机制的AI记忆经济模型: 将transformer注意力机制与心理学联想记忆理论统一，提供了可检验的理论预测
向经济学/金融学界引入知识注入微调技术: 为研究者提供了操纵LLM行为的新工具
经济含义的量化: 展示记忆偏差如何系统性地影响回报预测和组合表现，具有直接的市场影响

维度4：变量概览

变量	类型	测量方式	用途
IsStockChoice	因变量（二元 0/1）	LLM 当前 trial 是否选择股票	主要被解释变量
主观概率估计	因变量（连续 0-1）	LLM 报告"股票为 good 分布"概率	信念形成分析
置信度	因变量（Likert 1-7）	LLM 自评估对概率估计的置信度	元认知分析
ValenceDec	关键自变量（十分位 1-10）	人类志愿者对图片效价的 -2/+2 评分均值的十分位	主实验处理变量
ObjProb	自变量（连续 0-1）	贝叶斯后验 $1/(1+3^{n-2k})$	理性基准
IsPosMem	关键自变量（二元）	微调模型是否注入正面记忆	微调实验处理
IsCue / IsPosCue	自变量（二元）	是否给予线索；正面线索	微调实验交互
线索语料类型	自变量（二元）	金融新闻 vs. Yelp 餐饮评论	跨域效应识别
累计回报	控制变量（连续）	当前 block 内累计投资收益	控制学习效应
上一轮主观概率 / 选择 / 置信度	控制变量	lagged variables	控制状态依赖
模型 ID / 版本	固定效应（categorical）	GPT-5/4.1/4o + Claude/Gemini	模型异质性
Block ID	固定效应（categorical）	1-100	控制 block 异质性
图片主题	控制变量（categorical）	天气/恐怖/体育/金融/其他	主题异质性
风险偏好（5 项）	因变量（多种）	直接引出/Likert/Gneezy-Potters/Eckel-Grossman/真实分配	风险偏好测量
投资评分	因变量（{-1,0,+1}）	微调模型对 S&P500 新闻标题分类	回报预测
组合收益	因变量（连续）	5 分位多空日度再平衡	经济价值

维度5：局限性

AI ≠ 人类：作者明确不主张 AI 具有真实情感；"记忆"是隐喻性的注意力检索机制，向人类经验效应推广需谨慎。
激励机制对 LLM 有效性存疑：假设性金钱激励对 LLM 的影响渠道不清楚，虽然论文给出小贷的引用支持，但本质上 LLM 不"消费"金钱。
微调实验仅覆盖 GPT-4o-mini：因 OpenAI 微调成本与限制，未在所有模型上重复；正面与负面新闻数量不平衡（9,987 vs. 2,713）。
微调模型不支持图片：因此微调实验使用文本线索，不能直接验证 Lemma 6.1（视觉 vs. 文本线索差异）。
模型版本快速迭代：GPT-5/4.1/4o 等会被新版本替代，结果的可复现性面临挑战。
缺乏机制层面的注意力可视化：理论提出注意力机制，但实证未直接观察 LLM 内部注意力权重；机制证据是行为层面的间接推论。
黑盒微调：知识注入改变了模型权重，但具体哪些参数发生了变化、是否仅是表面"风格"变化（vs. 真正的"信念"变化）不明确。
样本期短：2024 年 1-12 月，1 年的回报预测样本不足以做严格的统计推断。
未考虑 prompt 设计的鲁棒性：投资决策结果可能对提示语 wording 敏感。
跨域溢出可能源于训练数据共线：LLM 嵌入空间中正面情感方向跨域共线本身可能反映训练语料偏差，并非独立的"记忆机制"。

维度7：可拓展的研究方向

机制层面验证：使用 mechanistic interpretability 工具（如 attention probing、activation patching）直接观察 LLM 在做投资决策时的内部注意力分配，验证理论模型。
AI 与人类的并行实验：在同一实验范式下同时运行人类被试与 LLM，量化偏差大小、方向、机制的相似性与差异。
跨模型架构比较：扩展到非 transformer 架构（如 state space models, Mamba）以检验偏差是否源于注意力机制本身。
去偏干预设计：通过 RLHF、in-context learning、CoT 等方式系统性地降低记忆偏差，量化每种干预的有效性。
市场均衡分析：在多 agent 模拟中部署不同记忆的 LLM，研究当 LLM 成为重要市场参与者时，记忆偏差如何影响价格发现、流动性、波动率。
真实部署后果：与对冲基金/资产管理公司合作，量化 LLM 顾问的记忆偏差对客户实际投资组合表现的影响。
结构估计：使用实验数据估计模型中的 $\beta$ （推理参数）、 $\lambda$ （线索强度）、记忆数量 $N$ 等参数，刻画不同模型的"记忆指纹"。
联系投资者记忆文献：将本文发现与 Godker_Jiao_2025_InvestorMemory、Walters_Fernbach_2021_InvestorMemory_PositivityBias、Malmendier_2020_InvestorExperiences_MarketDynamics 系统比较，构建"人类-AI 记忆-投资"统一框架。
多模态扩展：拓展到音频、视频线索，验证 Lemma 6.1 的更一般版本。
监管含义：探讨当 LLM 推理被嵌入金融建议时，监管机构应如何要求披露训练数据/微调来源以防止系统性偏差。
时间维度：研究"记忆衰减"——给定相同微调，模型行为随时间是否稳定，需要多频繁重新校准。
集体行为：当多个 LLM 共享相似训练数据时，是否会形成"AI 群体性偏差"，加剧市场同质化与脆弱性（联系 Hashimoto_Takayanagi_2026_LLMAgents_HumanBias_MarketDynamics）。

关键结论

GAI 决策受"记忆"驱动而非纯粹的贝叶斯计算：即便 LLM 能形成完美贝叶斯信念（贝叶斯基准回归斜率为 0），其投资选择仍系统性地受与决策无关的情感图片线索影响（17.7% 的差异）。这意味着将 LLM 视为"理性 homo economicus"的观点（Horton 2023）需要重要修正：LLM 在面对投资决策时表现出"行为代理人"特征，且偏差来自训练数据/微调形成的隐式记忆库。
记忆效应跨域溢出且可被因果操纵：通过知识注入微调，作者展示 Yelp 餐饮评论可以显著改变 LLM 的金融投资决策（13 pp 差异），且效应大小不亚于金融新闻微调。这一发现既挑战了 Malmendier (2021) 的人类经验领域特异性假说，也提示在 LLM 部署到金融行业前必须严格审计训练语料的情感倾向，否则会通过跨域共线性产生系统性投资偏差。相关链接：Godker_Jiao_2025_InvestorMemory、Walters_Fernbach_2021_InvestorMemory_PositivityBias、Malmendier_2020_InvestorExperiences_MarketDynamics、Enke_Schwerter_2020_AssociativeMemory_BeliefFormation、Bini_BehavioralEconomics_AI_LLMBiases、EvenTov_Lourie_2025_AI_RetailInvestorBehavior、Hashimoto_Takayanagi_2026_LLMAgents_HumanBias_MarketDynamics、Silveira_Woodford_2019_NoisyMemory_Overreaction、Fudenberg_Lanzani_2022_SelectiveMemoryEquilibrium。

Zheng_2025_Memory_GenerativeAI