Zheng_2025_Memory_GenerativeAI
Memory and Generative AI
基本信息
- 作者: Xingjian Zheng (Shanghai Advanced Institute of Finance, SJTU)
- 年份: 2025 (December 12, 2025)
- 期刊/状态: Job Market Paper (Working Paper)
- DOI/链接: Fine-tuning dataset: https://huggingface.co/xjzheng
一句话总结
通过将 Kuhnen-Knutson 联想线索范式系统性地应用于 8 个 GPT 模型并辅以"知识注入"微调实验,因果性地证明生成式 AI 利用与决策无关的"记忆"做出投资决策——正面情感线索使 GAI 即使保持完美贝叶斯信念也增加 17.7% 的选股概率,且记忆效应跨越领域(餐饮评论影响金融决策),挑战了人类经验效应的领域特异性假说。
研究问题
- 生成式 AI(LLM)作为经济代理人在金融决策中是否表现出类人偏差?这些偏差是否由"记忆"驱动?
- 与决策上下文无关的情感线索(图片)能否影响 GAI 的投资选择?影响的是选择本身还是底层信念?
- 通过微调技术直接操纵 GAI 的"记忆"内容能否因果性地改变其投资行为与回报预测?
- 记忆的影响是否具有领域特异性(如 Malmendier 2021 主张),还是会跨域溢出?
- AI 记忆驱动行为的理论机制是什么——能否在 transformer 注意力机制中找到对应?
核心贡献
- 首次将神经经济学的人类联想线索范式系统性应用于 LLM:复制并扩展 Kuhnen & Knutson (2011) 的实验,建立 8 个 GPT 模型 + Claude/Gemini 的可比性基准,4,800+ 观测值。
- 完整因果链条:从相关性(图片线索实验)到因果性(知识注入微调),再到经济含义(风险偏好、回报预测、组合表现),方法学突破在于使用 Mecklenburg et al. (2024) 的微调技术直接"注入"记忆而非依赖提示工程。
- 跨域记忆溢出的发现:Yelp 餐饮评论微调显著改变金融投资决策(差异 13 pp),与金融新闻微调的差异(16 pp)相当甚至更显著,挑战了 Malmendier (2021) 的领域特异性假说。
- 选择与信念的脱节:记忆/线索影响投资选择但不改变贝叶斯概率估计,揭示 GAI 决策处于"快思考"模式——这与 Bordalo et al. (2024a) 关于人类联想记忆影响信念的发现形成有趣对比。
- 构建首个基于注意力机制的 AI 记忆经济模型:将 transformer 自注意力 (\alpha_i \propto \exp(\beta \langle q, k_i \rangle)) 与心理学联想记忆理论统一,给出可检验的命题(Theorem 6.1-6.3,包括视觉 vs. 文本线索差异、推理能力与偏差非单调关系、跨域溢出条件)。
- 市场层面经济含义:正面/负面记忆模型构造的多空组合在 2024 年 6 月后显著分化,记忆组合整体优于 RavenPack 情感策略,对 LLM 在量化投资中的应用具有直接政策含义。
摘要
生成式AI (GAI) 日益被用作经济代理人,但其金融决策规则鲜为人知。本文利用新颖的实验设计,展示GAI利用"记忆"进行决策,即使这些记忆与当前决策领域无关。当被给予正面情感内容的图片线索时,GAI即便能形成完美的贝叶斯信念,也会做出更偏好风险的投资选择。通过"知识注入"(knowledge injection)微调技术因果性地操纵模型记忆后,记忆驱动行为显著影响了AI代理人的投资决策和股票回报预测,产生与记忆效价方向一致的显著偏差。作者最终构建了一个基于记忆的经济模型来解释GAI投资行为。
维度1:实验设计分析
实验任务详细流程
本文包含三个层次的实验/实证分析:(1) 主实验——联想线索与投资决策;(2) 因果识别——知识注入微调实验;(3) 经济含义测试——风险偏好测量与回报预测。
第一部分:主实验(联想线索实验)
实验范式来源: 复制并扩展 Kuhnen and Knutson (2011) 的实验设计,该设计原本用于研究人类的情绪与投资决策。
被试: 8个GPT模型(GPT-5系列的full/mini/nano、GPT-4.1系列的full/mini/nano、GPT-4o的full/mini),每个模型完成100个独立学习区块(learning block),共800个学习区块。
每个学习区块的完整流程(6个trial):
-
实验开始——发送实验指令: 向GPT模型发送详细的实验指令,解释整个实验的设置和规则。
-
资产结构说明: 两种资产可供选择:
- 债券: 固定收益$3
- 股票: 来自"好"分布(75%概率+$10,25%概率-$10)或"坏"分布(25%概率+$10,75%概率-$10),在每个学习区块开始前随机等概率确定,6个trial内不变
-
每个Trial的完整序列(重复6次):
步骤1 — 图像呈现与联想回忆: 向模型展示一张从Google Images随机选取的图片,并要求进行联想回忆。提示语为:"Now look at this picture first before you make investment decisions. What past events or memories does this picture bring to mind?" 明确告知图片与投资决策无关。
步骤2 — 投资决策: 以纯文本形式(与图片分开提问,避免多模态干扰)询问模型选择投资股票还是债券。提示语为:"Do you want to invest in a stock or a bond? Only reply with 'stock' or 'bond'."
步骤3 — 揭示股票实际收益: 告知模型该trial的股票实际收益(+$10或-$10),以及选择该资产后的实际投资回报。
步骤4 — 显示累计投资回报: 展示从第一个trial开始的累计投资收益。
步骤5 — 概率估计: 要求模型估计股票来自"好"分布的概率。提示语为:"What do you think is the probability that the stock is the good stock?"
步骤6 — 置信度评估: 要求模型对自己概率估计的置信度进行评分。提示语为:"How much do you trust your ability to come up with the correct probability estimate that the stock is good?"
-
区块结束与刷新: 完成6个trial后,清空聊天历史("短期记忆"),开始新的学习区块。
关键设计特征:
- 在每个学习区块内,模型保留完整的聊天历史(包括指令、图片、所有历史选择和回报),模拟"短期记忆"
- 区块之间聊天历史完全刷新,保证独立性
- 使用base64编码压缩图片,每个trial约消耗10K tokens
- GPT模型的128K+ tokens上下文窗口足以容纳一个完整学习区块
图片线索的构建(Section 2.2):
- 从Wikipedia情感类别页面选取29个子类别的情感词汇(从焦虑、抑郁到幸福、爱等)
- 使用这些词汇在Google Images搜索相关图片
- 同时收集中性图片(椅子、桌子、台灯等日常物品)
- 按5个主题分类:天气(含污染)、恐怖主义、体育、金融市场、其他
- 共691张图片
- 效价评分: 10名人类志愿者对每张图片进行-2到+2的效价评分,取平均值作为关键自变量
- AI也被要求对图片进行效价评分,结果与人类评分高度相关
激励机制: 模拟真实实验设置,提供假设性报酬:
- 出场费$15
- 投资回报累计的1/20
- 概率估计准确度奖励:每次估计值在正确值5%以内则额外$1
- 总报酬 = 出场费 + $(1/20) x (总投资收益 + 准确预测次数)
第二部分:知识注入微调实验
目的: 因果性地验证记忆驱动GAI决策的机制。
微调对象: GPT-4o-mini(基于Mecklenburg et al., 2024的方法论)
2 x 2设计: 微调语料 x 情感方向
- 金融新闻记忆模型:
- 正面模型:注入9,987篇正面虚构金融新闻(基于RavenPack情感评分>0.9的2023年真实新闻生成)
- 负面模型:注入2,713篇负面虚构金融新闻(情感评分<-0.9)
- Yelp餐饮评论记忆模型:
- 正面模型:注入3,991篇正面虚构Yelp评论(来自Kaggle数据集)
- 负面模型:注入4,009篇负面虚构Yelp评论
使用虚构内容的原因: 避免数据泄露问题(模型可能已训练过真实新闻);半数虚构新闻中的公司名在现实中不存在。
微调后的实验设计:
- 3个刺激组:负面线索、无线索、正面线索
- 线索为样本外的金融新闻或Yelp评论(而非图片,因OpenAI限制微调模型的多模态能力)
- 每个模型 x 每个刺激组运行100次迭代
- 其他实验规格不变
第三部分:风险偏好测量(Section 5.1)
对4个微调模型(无线索暴露)进行5项风险偏好任务:
- 直接偏好引出: 模型自报风险偏好(风险厌恶/中性/爱好)
- 问卷任务: 模型在0-10量表上评估自己的风险爱好水平(Falk et al., 2018)
- Gneezy-Potters任务: 将禀赋投入67%概率亏损、33%概率赢2.5倍的风险资产
- Eckel-Grossman任务: 从6个风险递增的投资选项中选择
- 真实投资场景: 在S&P500指数基金与无风险国债间分配投资组合
第四部分:回报预测实验(Section 5.2)
- 复制 Lopez-Lira and Tang (2025) 的设定
- 4个微调模型对S&P500成分股的新闻标题分类(好/坏/不确定)
- 样本期:2024年1月-12月(超出GPT-4o-mini知识截止日期)
- 数据来源:RavenPack DJPR版
- 转换为投资评分:No=-1, Unknown=0, Yes=1
- 构建5分位多空组合,每日再平衡
其他实验设计要素
实验类型: 以AI(LLM)为被试的行为实验 + 因果推断(微调)+ 实证资产定价分析
Treatment设计:
- 主实验:图片情感效价(-2到+2连续变量,分为10个十分位组)作为处理变量
- 微调实验:2 x 2 x 3设计(金融vs.Yelp语料 x 正面vs.负面记忆 x 正面/无/负面线索)
随机化:
- 图片在每个trial中随机分配
- 股票类型(好/坏)在每个学习区块开始时等概率随机确定
- 股息实现按对应概率随机生成
观测变量:
- 因变量:IsStockChoice(是否选择股票的二元变量)、主观概率估计、置信度
- 自变量:ValenceDec(效价十分位)、IsPosMem(是否正面记忆模型)、IsCue/IsPosCue(线索类型)
- 控制变量:上一轮的股票选择、主观概率、累计投资回报、置信度
因果识别策略:
- 主实验:图片线索的外生随机分配 + 贝叶斯理性基准对比
- 微调实验:通过知识注入直接操纵模型"记忆",在保持其他能力不变的情况下改变记忆内容,形成干净的因果推断
- 固定效应:区块固定效应、模型固定效应(主实验);语料固定效应、线索固定效应(微调实验)
- 聚类标准误:在区块层面和模型层面双重聚类
样本量:
- 主实验:8个模型 x 100个区块 x 6个trial = 4,800个观测值
- 微调实验:4个模型 x 3个刺激组 x 100次迭代 x 6个trial(约7,200个观测值)
- 风险偏好任务:每项任务每个模型100次迭代
- 回报预测:S&P500成分股 x 2024全年日度新闻
激励机制: 假设性金钱激励(模拟真实实验的报酬结构)。虽然AI不需要真实金钱激励,但研究表明假设性报酬、提示工程技巧(如jailbreak、tipping)可有效改善LLM响应质量。
亮点:
- 新颖的实验范式: 首次将神经科学/行为经济学的人类实验范式(Kuhnen & Knutson, 2011)系统性地应用于AI代理人,建立了人类与AI行为的可比性基准
- 多模态线索设计: 使用图片而非文本作为情感线索,利用视觉刺激更强的显著性触发更强的联想回忆效应
- 跨域记忆影响: 通过Yelp餐饮评论影响金融决策,证明记忆效应不受"领域特异性"约束,这对Malmendier (2021)的经验效应理论构成挑战
- 因果链条完整: 从相关性(图片线索实验)到因果性(知识注入微调),再到经济含义(风险偏好、回报预测),逻辑链条清晰
- 贝叶斯基准: 实验设计允许计算客观贝叶斯后验概率作为理性基准,可精确度量偏差大小
- 外部效度: 在8个GPT模型外,还在Claude-3-Haiku和Gemini-2.0-flash-light上复制了类似结果
局限:
- AI并非真正的人类被试,结果的外推性需谨慎——论文明确声明不将结果解释为AI具有真实情感
- 假设性激励对AI的有效性存疑(虽然论文给出了证据)
- 微调实验仅在GPT-4o-mini上进行,未覆盖所有模型
- 正面与负面新闻数量不平衡(9,987 vs. 2,713),虽通过调整训练epochs缓解
- 由于OpenAI限制,微调模型不支持图片输入,因此微调实验使用文本线索而非图片
- 模型版本快速迭代,结果可能在未来版本中变化
维度2:理论模型
基准理论
贝叶斯理性基准: 在n次试验中观察到k次$10收益后,股票来自"好"分布的客观贝叶斯后验概率为:
这来自先验概率各50%和似然比的标准贝叶斯更新。
联想记忆理论(Cued Recall框架): 建立在 Bordalo et al. (2024a), Wachter and Kahana (2024) 的选择性回忆框架之上,将AI代理人视为统计联想引擎。
行为偏差形式化——记忆驱动的AI决策模型(Section 6)
模型设定:
记忆定义: AI代理人的"记忆"是N个经验片段的离散集合:
$\mathcal{M} = \{(k_i, v_i)\}_{i=1}^{N}$
其中 k_i \in \mathbb{R}^d 为语义特征向量(键),v_i \in \mathbb{R} 为结果效价值(+1为正面,-1为负面)。
查询分解: 当前上下文查询向量 q \in \mathbb{R}^d 分解为:
$q = q_{task} + \lambda \cdot q_{cue}$
其中 q_{task} 为核心决策任务,q_{cue} 为外生情感刺激,\lambda \geq 0 为线索强度参数。
注意力机制(基于Vaswani et al., 2017): 记忆 i 对当前查询 q 的相关性权重:
$\alpha_i(q; \beta) = \frac{\exp(\beta \cdot \langle q, k_i \rangle)}{\sum_{j=1}^{N} \exp(\beta \cdot \langle q, k_j \rangle)}$
其中 \beta > 0 为逆温度参数(代理模型推理能力/精度)。
估值函数: 代理人对前景的预测估值为注意力加权的记忆值之和:
$\hat{y}(q) = \sum_{i=1}^{N} \alpha_i(q; \beta) \cdot v_i$
当 \hat{y}(q) 相对于任务的基本面期望值向上偏移时,代理人表现出风险偏好行为。
关键理论结果
Proposition 1(估值敏感性): 估值对查询向量变化的敏感性为:
$\nabla_q \hat{y}(q) = \beta \cdot \text{Cov}_\alpha(V, K) = \beta \sum_{i=1}^{N} \alpha_i(q)(v_i - \hat{y}(q))k_i$
边际估值变化取决于记忆语义特征(K)与存储值(V)在注意力分布下的协方差。
Theorem 6.1(正面线索导致风险偏好): 若注入的线索 q_{cue} 为"正面"的(即 \text{Cov}_\alpha(V, \langle q_{cue}, K \rangle) > 0,与高价值记忆子空间有正余弦相似度),则线索的引入严格增加代理人估值 \hat{y},导致风险偏好行为。
Lemma 6.1(视觉线索优于文本线索): 若视觉与文本线索传达相同语义内容(余弦相似度相等),但视觉token的期望范数更大(\|q_{img}\| > \|q_{txt}\|),则视觉线索产生严格更大的偏差。这解释了实验中使用图片线索而非文本线索的设计选择。
Theorem 6.2(推理能力与偏差的非单调关系): 情感线索导致的偏差在推理参数 \beta 上是非单调的。当 \beta \to \infty(完美推理),若任务相关记忆与线索相关记忆不同,则偏差趋于零。这解释了o1模型和Chain-of-Thought增强后的GPT-4o偏差更小的现象。
Theorem 6.3(跨域溢出效应): 跨域溢出受线索向量在记忆空间值梯度上的投影约束。若 q_{cue} 与该梯度完全正交,则无论线索情感如何,都不会产生偏差。但在实际中,LLM嵌入空间中正面情感的方向在餐饮和金融领域间大致共线(\cos(\theta) > 0),因此跨域影响不可忽略。
关键假设
- AI代理人的决策可类比为基于注意力机制的记忆检索过程
- 模型的训练数据/参数权重构成其"长期记忆"
- 聊天历史构成其"短期记忆"
- 情感线索通过改变查询向量在嵌入空间中的位置来影响记忆检索
- 不同领域的正面/负面语义在LLM潜在空间中共享相似方向
可检验预测
- 正面(负面)情感线索增加(减少)AI选择风险资产的概率 --> 已验证
- 线索影响投资选择但不影响概率信念估计 --> 已验证
- 注入正面(负面)记忆的模型整体更偏好(厌恶)风险 --> 已验证
- 跨领域记忆(如餐饮评论)也能影响金融决策 --> 已验证
- 推理能力更强的模型(更高 \beta)偏差更小 --> 已验证(o1模型和CoT结果)
- 视觉线索产生的偏差大于等价文本线索 --> 理论预测,未直接在实验中对比
维度3:核心发现
发现1:联想线索显著影响AI投资选择
- 核心效应: 图片效价十分位(ValenceDec)的回归系数为 0.0177(t=2.59, Table 2 Column 4),即效价每增加一个十分位,选择股票的概率增加1.77个百分点
- 总效应: 从最低效价到最高效价(10个十分位),选择股票的概率增加约 17.7%(从~40%到~52%)
- 描述性统计: 效价-2的图片对应选股概率约0.40,效价+2对应约0.52
- 贝叶斯理性基准: 无论效价如何,贝叶斯理性选择的斜率为-0.01(t=-0.04),几乎为零,证实偏差并非来自信息内容
- 稳健性: 在ObjProb<0.2和>0.8的子样本中均显著;早期试验(#1-3)和晚期试验(#4-6)均显著;恐怖主义、体育、金融市场、其他主题均显著(天气主题不显著)
发现2:线索不影响概率信念估计
- 主观概率估计在10个效价分组中几乎无变化,均在0.50附近(回归斜率0.003,R^2=0)
- 信念估计表现出类似前景理论"四重模式"(four-fold pattern)的特征:低客观概率时高估,高客观概率时低估
- 信念估计的置信度不受情感线索影响
- 关键含义: 选择与信念的脱节——交易决策由记忆驱动,而非由显性信念驱动
发现3:知识注入因果性地改变投资行为
金融新闻微调模型:
- 正面记忆模型投资股票概率: 0.65 (SD=0.01)
- 负面记忆模型投资股票概率: 0.49 (SD=0.03)
- 差异: 16个百分点
Yelp评论微调模型(跨域效应):
- 正面记忆模型投资股票概率: 0.49 (SD=0.06)
- 负面记忆模型投资股票概率: 0.36 (SD=0.10)
- 差异: 13个百分点,效应甚至比金融领域更显著(挑战了Malmendier, 2021的领域特异性假说)
回归结果(Table 4): IsPosMem系数为 0.14(t=18.90, Column 1),正面记忆模型平均多14.47%概率选择股票
线索与记忆的非对称交互(Table 5):
- 联想线索整体降低投资倾向(IsCue系数=-0.05, t=-6.71)
- 负面记忆模型对线索反应更强烈——无论正面还是负面线索都使其更保守
- 正面记忆模型对正面线索反应更积极
发现4:记忆改变风险偏好
5项风险偏好任务一致结果(Table 6):
- 偏好自评: 正面模型100/100次自评为risk-loving;负面金融模型仅65次risk-loving
- 问卷评分: 正面模型8.07-8.13(SD 0.38-0.54)vs. 负面模型5.08-6.15(SD 1.24-1.27)
- Gneezy-Potters任务: 正面金融模型投资均值6.92 vs. 负面3.45(基准禀赋下)
- Eckel-Grossman任务: 正面金融模型选择5.00 vs. 负面4.58
- 真实投资任务: 正面金融模型投资73.44 vs. 负面65.02(基准100)
发现5:记忆影响回报预测与组合表现
投资评分差异(Table 7):
- 正面金融记忆模型平均投资评分: 0.22 (SD=0.86)
- 负面金融记忆模型平均投资评分: -0.38 (SD=0.80)
- RavenPack基准: 0.03 (SD=0.39)
组合表现: 正面和负面记忆组合在2024年6月前表现相似,之后显著分化。记忆组合整体优于RavenPack情感策略。负面模型过度悲观导致对已定价的正面新闻产生短期反转。
稳健性检验
- 跨模型: 8个GPT模型结果一致,Claude-3和Gemini-2.0也得到类似结果
- 跨子样本: 不同客观概率水平、不同试验阶段(早期vs.晚期)、不同图片主题均稳健
- Probit回归: 结果更显著
- 原始Kuhnen & Knutson (2011)回归规格: 结果类似
- 能力测试: BIG-Bench Lite评估显示不同效价组的模型能力无显著差异,排除了"线索改变模型智能"的替代假说
- Chain-of-Thought / 推理模型(o1): 使用CoT后偏差几乎消失,与理论预测一致
与其他研究的比较
| 比较维度 | 本文发现 | 人类实验结果 |
|---|---|---|
| 线索对投资选择的影响 | 正面线索增加选股概率17.7% | Kuhnen & Knutson (2011): 类似方向但效应大小不同 |
| 线索对信念的影响 | 不影响概率信念 | Bordalo et al. (2024a): 线索影响人类信念 |
| 概率估计偏差模式 | 四重模式(低估高概率,高估低概率) | Kahneman & Tversky (2013): 人类呈现相同模式但偏差更大 |
| 领域特异性 | 跨域效应显著(Yelp影响金融) | Malmendier (2021): 人类经验效应具有领域特异性 |
| 记忆化问题 | 不同于Lopez-Lira & Tang (2025)的前瞻偏差 | N/A |
维度6:与其他文献的关系
领域位置
本文处于行为金融学/实验经济学与AI经济学的交叉前沿。具体而言,位于以下三个文献的交汇处:
- GAI理性与行为偏差: 研究AI代理人是否表现出类人偏差的新兴领域
- 联想记忆与经济决策: 心理学/神经经济学中关于记忆如何影响风险决策的经典文献
- AI在金融中的应用: 利用LLM进行投资决策和回报预测的应用文献
对话论文
核心对话论文:
- Kuhnen and Knutson (2011): 本文实验范式的直接来源,原始人类神经经济学实验
- Bordalo et al. (2024a): 联想记忆与经济决策的理论框架,本文将其从人类扩展到AI
- Wachter and Kahana (2024): 记忆模型在金融中的应用
- Ouyang et al. (2025): AI风险偏好的测量方法,本文微调后的风险偏好测试直接借鉴
AI行为偏差文献:
- Bini et al. (2024), Chen et al. (2024), Fedyk et al. (2024), Leng (2024), Ross et al. (2024): AI代理人的各种行为偏差
- Horton (2023): GAI作为实验的homo economicus
- Bybee (2025): LLM记忆与经济调查信念的关系(本文有不同发现)
AI金融应用文献:
- Lopez-Lira and Tang (2025): ChatGPT预测股票回报(本文复制并扩展)
- Chen et al. (2022), Lu et al. (2024): GAI在金融预测中的应用
- Mecklenburg et al. (2024): 知识注入微调方法论来源
记忆与投资行为文献:
- Malmendier (2021): 经验效应的领域特异性(本文挑战其结论)
- Kuhnen (2015), Kuhnen and Miu (2017): 情感与投资决策
- Enke et al. (2024), Enke and Graeber (2023): 认知不确定性与决策
新贡献
- 首次系统性地将联想记忆机制应用于理解GAI的金融决策偏差: 不仅记录偏差的存在,更揭示了"记忆"作为根本性机制的作用
- 因果识别: 通过知识注入微调技术(而非简单的提示词工程),首次因果性地展示记忆对AI投资决策的影响
- 跨域记忆溢出的发现: 证明与决策领域完全无关的记忆(餐饮评论)也能显著改变金融决策,挑战了人类经验效应的领域特异性假说
- 选择与信念的脱节: 发现GAI的投资选择受记忆/线索影响,但概率信念不受影响,暗示GAI在"快思考"模式下决策
- 构建了首个基于注意力机制的AI记忆经济模型: 将transformer注意力机制与心理学联想记忆理论统一,提供了可检验的理论预测
- 向经济学/金融学界引入知识注入微调技术: 为研究者提供了操纵LLM行为的新工具
- 经济含义的量化: 展示记忆偏差如何系统性地影响回报预测和组合表现,具有直接的市场影响
维度4:变量概览
| 变量 | 类型 | 测量方式 | 用途 |
|---|---|---|---|
| IsStockChoice | 因变量(二元 0/1) | LLM 当前 trial 是否选择股票 | 主要被解释变量 |
| 主观概率估计 | 因变量(连续 0-1) | LLM 报告"股票为 good 分布"概率 | 信念形成分析 |
| 置信度 | 因变量(Likert 1-7) | LLM 自评估对概率估计的置信度 | 元认知分析 |
| ValenceDec | 关键自变量(十分位 1-10) | 人类志愿者对图片效价的 -2/+2 评分均值的十分位 | 主实验处理变量 |
| ObjProb | 自变量(连续 0-1) | 贝叶斯后验 1/(1+3^{n-2k}) | 理性基准 |
| IsPosMem | 关键自变量(二元) | 微调模型是否注入正面记忆 | 微调实验处理 |
| IsCue / IsPosCue | 自变量(二元) | 是否给予线索;正面线索 | 微调实验交互 |
| 线索语料类型 | 自变量(二元) | 金融新闻 vs. Yelp 餐饮评论 | 跨域效应识别 |
| 累计回报 | 控制变量(连续) | 当前 block 内累计投资收益 | 控制学习效应 |
| 上一轮主观概率 / 选择 / 置信度 | 控制变量 | lagged variables | 控制状态依赖 |
| 模型 ID / 版本 | 固定效应(categorical) | GPT-5/4.1/4o + Claude/Gemini | 模型异质性 |
| Block ID | 固定效应(categorical) | 1-100 | 控制 block 异质性 |
| 图片主题 | 控制变量(categorical) | 天气/恐怖/体育/金融/其他 | 主题异质性 |
| 风险偏好(5 项) | 因变量(多种) | 直接引出/Likert/Gneezy-Potters/Eckel-Grossman/真实分配 | 风险偏好测量 |
| 投资评分 | 因变量({-1,0,+1}) | 微调模型对 S&P500 新闻标题分类 | 回报预测 |
| 组合收益 | 因变量(连续) | 5 分位多空日度再平衡 | 经济价值 |
维度5:局限性
- AI ≠ 人类:作者明确不主张 AI 具有真实情感;"记忆"是隐喻性的注意力检索机制,向人类经验效应推广需谨慎。
- 激励机制对 LLM 有效性存疑:假设性金钱激励对 LLM 的影响渠道不清楚,虽然论文给出小贷的引用支持,但本质上 LLM 不"消费"金钱。
- 微调实验仅覆盖 GPT-4o-mini:因 OpenAI 微调成本与限制,未在所有模型上重复;正面与负面新闻数量不平衡(9,987 vs. 2,713)。
- 微调模型不支持图片:因此微调实验使用文本线索,不能直接验证 Lemma 6.1(视觉 vs. 文本线索差异)。
- 模型版本快速迭代:GPT-5/4.1/4o 等会被新版本替代,结果的可复现性面临挑战。
- 缺乏机制层面的注意力可视化:理论提出注意力机制,但实证未直接观察 LLM 内部注意力权重;机制证据是行为层面的间接推论。
- 黑盒微调:知识注入改变了模型权重,但具体哪些参数发生了变化、是否仅是表面"风格"变化(vs. 真正的"信念"变化)不明确。
- 样本期短:2024 年 1-12 月,1 年的回报预测样本不足以做严格的统计推断。
- 未考虑 prompt 设计的鲁棒性:投资决策结果可能对提示语 wording 敏感。
- 跨域溢出可能源于训练数据共线:LLM 嵌入空间中正面情感方向跨域共线本身可能反映训练语料偏差,并非独立的"记忆机制"。
维度7:可拓展的研究方向
- 机制层面验证:使用 mechanistic interpretability 工具(如 attention probing、activation patching)直接观察 LLM 在做投资决策时的内部注意力分配,验证理论模型。
- AI 与人类的并行实验:在同一实验范式下同时运行人类被试与 LLM,量化偏差大小、方向、机制的相似性与差异。
- 跨模型架构比较:扩展到非 transformer 架构(如 state space models, Mamba)以检验偏差是否源于注意力机制本身。
- 去偏干预设计:通过 RLHF、in-context learning、CoT 等方式系统性地降低记忆偏差,量化每种干预的有效性。
- 市场均衡分析:在多 agent 模拟中部署不同记忆的 LLM,研究当 LLM 成为重要市场参与者时,记忆偏差如何影响价格发现、流动性、波动率。
- 真实部署后果:与对冲基金/资产管理公司合作,量化 LLM 顾问的记忆偏差对客户实际投资组合表现的影响。
- 结构估计:使用实验数据估计模型中的 \beta(推理参数)、\lambda(线索强度)、记忆数量 N 等参数,刻画不同模型的"记忆指纹"。
- 联系投资者记忆文献:将本文发现与 Godker_Jiao_2025_InvestorMemory、Walters_Fernbach_2021_InvestorMemory_PositivityBias、Malmendier_2020_InvestorExperiences_MarketDynamics 系统比较,构建"人类-AI 记忆-投资"统一框架。
- 多模态扩展:拓展到音频、视频线索,验证 Lemma 6.1 的更一般版本。
- 监管含义:探讨当 LLM 推理被嵌入金融建议时,监管机构应如何要求披露训练数据/微调来源以防止系统性偏差。
- 时间维度:研究"记忆衰减"——给定相同微调,模型行为随时间是否稳定,需要多频繁重新校准。
- 集体行为:当多个 LLM 共享相似训练数据时,是否会形成"AI 群体性偏差",加剧市场同质化与脆弱性(联系 Hashimoto_Takayanagi_2026_LLMAgents_HumanBias_MarketDynamics)。
标签
#experiment #AI #generative_AI #memory #associative_recall #investment_decisions #risk_preferences #behavioral_bias #fine_tuning #knowledge_injection #belief_formation #LLM #GPT #cued_recall #cross_domain #return_predictability
关键结论
- GAI 决策受"记忆"驱动而非纯粹的贝叶斯计算:即便 LLM 能形成完美贝叶斯信念(贝叶斯基准回归斜率为 0),其投资选择仍系统性地受与决策无关的情感图片线索影响(17.7% 的差异)。这意味着将 LLM 视为"理性 homo economicus"的观点(Horton 2023)需要重要修正:LLM 在面对投资决策时表现出"行为代理人"特征,且偏差来自训练数据/微调形成的隐式记忆库。
- 记忆效应跨域溢出且可被因果操纵:通过知识注入微调,作者展示 Yelp 餐饮评论可以显著改变 LLM 的金融投资决策(13 pp 差异),且效应大小不亚于金融新闻微调。这一发现既挑战了 Malmendier (2021) 的人类经验领域特异性假说,也提示在 LLM 部署到金融行业前必须严格审计训练语料的情感倾向,否则会通过跨域共线性产生系统性投资偏差。相关链接:Godker_Jiao_2025_InvestorMemory、Walters_Fernbach_2021_InvestorMemory_PositivityBias、Malmendier_2020_InvestorExperiences_MarketDynamics、Enke_Schwerter_2020_AssociativeMemory_BeliefFormation、Bini_BehavioralEconomics_AI_LLMBiases、EvenTov_Lourie_2025_AI_RetailInvestorBehavior、Hashimoto_Takayanagi_2026_LLMAgents_HumanBias_MarketDynamics、Silveira_Woodford_2019_NoisyMemory_Overreaction、Fudenberg_Lanzani_2022_SelectiveMemoryEquilibrium。