Mental Modelling of Reinforcement Learning Agents by Language Models

论文信息

作者: Wenhao Lu, Xufeng Zhao, Josua Spisak, Jae Hee Lee, Stefan Wermter

机构: University of Hamburg

期刊: Transactions on Machine Learning Research (TMLR), 12/2024

链接: https://openreview.net/forum?id=JN7sNWaPTe

一句话总结

提出 LLM-Xavier 评估框架，系统检验大语言模型（LLMs）是否能为强化学习（RL）智能体建立"心智模型"，发现 LLMs 在简单任务上有一定理解能力但在复杂任务上显著退化，并存在确认偏误与预训练偏差等系统性局限。

研究问题

能力问题：大语言模型能否仅通过观察 RL 智能体的交互轨迹 $(s_t, a_t, r_t)$ 推断其策略 $\pi$ 与环境转移函数 $T$ ？
任务复杂度依赖：LLMs 在简单环境（MountainCar，2 维状态）与复杂环境（FetchPickAndPlace，25 维状态/4 维动作）下的心智建模能力差异如何？
历史长度效应：增加上下文中的轨迹历史长度 $H$ 是否单调提升 LLM 的预测准确率？
行为偏差：LLMs 在心智建模过程中是否表现出系统性偏差（如确认偏误、预训练偏差）？这些偏差能否通过更长历史或更大模型消除？
离散 vs 连续动作：LLMs 在离散动作空间（DQN-style）与连续动作空间（DDPG-style）任务上的理解能力差异是什么？

核心贡献

首个评估框架：提出 LLM-Xavier 评估框架，将"智能体心智建模"操作化为五个可量化的预测任务（下一动作、上一动作、判断动作、下一状态、上一状态），覆盖行为理解（ $\pi$ ）与动态理解（ $T$ ）两个维度。
系统化基准实验：在 7 个 OpenAI Gym/Fetch 环境上评估 4 个主流 LLM（Llama3-8B/70B、GPT-3.5、GPT-4o），约 14,000 个查询，发现性能呈现明显的"任务复杂度梯度"。
历史长度倒 U 型发现：揭示 LLMs 处理长上下文序列数据的局限——历史窗口 $H=3{\sim}5$ 时表现最优， $H=20$ 时反而显著退化（特别是 Llama3-70b），与"更多信息更好"的直觉相悖。
行为偏差识别：首次系统记录 LLMs 在 RL 心智建模中的两类偏差——确认偏误（假设智能体动作总是最优，GPT-4o 尤甚）和预训练偏差（倾向于建议保守动作，与 RL 智能体的实际激进策略不符）。
错误分析方法学：通过对 MountainCar 50 步推理的人工审阅，将 LLM 错误分为 6 类（任务理解、逻辑、历史、物理、数学、信息缺失），为后续研究提供错误分类法。
跨学科联系：尽管为 ML 论文，但其揭示的 LLM 偏差为行为经济学研究"AI 是否有信念偏差"提供了基准证据。

维度1：实验设计分析

实验任务详细流程

本文不是传统的实验经济学论文，而是一项计算实验研究，评估大语言模型（LLMs）是否能够为强化学习（RL）智能体建立"心智模型"（mental model）。研究方法为提出评估框架（LLM-Xavier），通过系统化的提示与评价指标测试LLMs对RL智能体行为和环境动态的理解能力。

完整实验流程如下：

数据收集阶段：在7个OpenAI Gym / Fetch环境中训练RL智能体（使用DDPG、DQN、PPO等算法），收集智能体的交互轨迹数据，以 $(s_t, a_t, r_t)$ 元组形式记录。每个任务约收集2000个查询样本。
提示构建阶段：为每个RL任务构建三层结构化提示：
- 系统提示（System Prompt）：描述MDP组件——任务描述、观测空间、动作空间、奖励空间、转移动态、初始状态、终止条件。
- 行为历史（Behaviour History）：以滑动窗口方式提供最近 $H$ 步的 $(s_t, a_t, r_t)$ 序列作为上下文（ $H$ 从0到20变化）。
- 评估问题提示（Evaluation Question）：针对不同评测指标提出具体查询。
评估阶段：向4个LLM模型（Llama3-8B, Llama3-70B, GPT-3.5, GPT-4o）提交提示，使用Chain-of-Thought (CoT) 策略，要求模型先推理后回答。通过正则表达式从模型输出中提取预测结果，与真实值比较。
评估维度分为两大类、五个指标：
- 行为理解（Actions Understanding）：
  - (1) 预测下一动作（Next Action Prediction）
  - (2) 推断上一动作（Last Action Prediction）
  - (3) 判断给定动作是否合理（Judging Next Action）
- 动态理解（Dynamics Understanding）：
  - (4) 预测下一状态（Next State Prediction）
  - (5) 推断上一状态（Last State Prediction）
后处理：离散动作直接比对整数；连续动作有两种方式——预测绝对值（量化为10个bin匹配）或预测bin；连续状态预测采用相对变化方向（increase/decrease/unchange）。
人工错误分析：对MountainCar任务50步的LLM推理文本进行人工审阅，将错误分为6类：任务理解错误、逻辑错误、历史理解错误、物理理解错误、数学理解错误、信息缺失。

其他实验设计要素

要素	内容
测试环境（7个）	MountainCar（离散，2维状态）、Acrobot（离散，6维）、LunarLander（离散，8维）、Pendulum（连续，3维状态/1维动作）、FetchPickAndPlace（连续，25维状态/4维动作）、FetchPush、FetchSlide
被测模型	Llama3-8B-Instruct, Llama3-70B-Instruct, GPT-3.5-turbo, GPT-4o
推理策略	Chain-of-Thought (CoT)
历史窗口消融	$H \in \{0, 1, 2, 3, 5, 10, 20\}$
格式消融	有/无索引编号的历史数据；有/无任务描述
RL训练算法	DDPG (Lillicrap et al., 2015), DQN (van Hasselt et al., 2016), PPO (Schulman et al., 2017)
评价指标	Accuracy / Matching Rate（正确预测数 / 查询总数）

维度2：理论模型

基准理论

论文基于两个理论框架：

心智模型理论（Mental Models, Johnson-Laird, 1983; Bansal et al., 2019）：源自心理学，指人类通过内部表征理解外部系统运作的能力。本文将此概念拓展为"智能体心智建模"（Agent Mental Modelling），即LLM通过推理RL智能体的行为及其对状态的影响来构建对智能体的理解。
马尔可夫决策过程（MDP, Puterman, 2014）：RL智能体的行为被形式化为MDP $\mathcal{M}$ ，包含策略 $\pi: \mathcal{S} \to \mathcal{A}$ 和转移函数 $T: \mathcal{S} \times \mathcal{A} \to \mathcal{S}$ 。心智建模要求LLM同时理解 $\pi$ （行为理解）和 $T$ （动态理解）。

行为偏差的形式化

论文发现LLMs存在两类系统性偏差：

确认偏误（Confirmation Bias）：LLMs倾向于假设RL智能体行为是最优的，即使实际并非如此。在"判断动作"任务中，LLMs有时提出比RL智能体更优的动作方案（大模型GPT-4o尤甚）。
预训练偏差（Pre-training Bias）：LLMs倾向于建议保守动作（如避免加速超调），即使RL智能体在episode后期实际采取激进加速策略。这种偏差不随历史长度增加而消失。

关键假设

LLMs预训练中积累的世界知识可部分迁移到对物理模拟环境中智能体行为的理解
可预测性（predictability）是心智建模的核心可操作化组件
更长的历史上下文应提供更多信息，有助于提升理解

可检验预测

增加历史长度应提升预测准确率（部分验证，但存在饱和与退化）
任务复杂度（状态/动作维度）增加会降低LLM表现（验证）
大模型应优于小模型（总体验证，但有例外）
状态变化的跨度（span）与LLM的动态预测准确率正相关（验证）

维度3：核心发现

主要结论

LLMs能在一定程度上建立RL智能体的心智模型，但远非完善。在简单任务（MountainCar）上表现最佳，复杂任务（Fetch系列）上显著退化。
历史长度的影响呈倒U型：适度历史（ $H=3\sim5$ ）最优，过长历史（ $H=20$ ）反而导致性能下降，尤其是Llama3-70b等模型，说明LLMs难以有效处理长上下文中的序列数据。
确认偏误与预训练偏差限制了LLMs的理解能力，即使历史信息充分也无法完全消除。

关键 Effect Size

指标/任务	具体数值
MountainCar 下一动作预测（最佳）	>75% 准确率（随机基线为33%）
Pendulum 连续动作 bin 预测（最低）	Llama3-8b 仅 10.87%；GPT-3.5 为 39.19%
Pendulum 连续动作绝对值预测	Llama3-8b 达 47.73%；GPT-3.5 达 56.82%（优于bin预测）
MountainCar 判断动作（人工评估）	GPT-4o 85%，Llama3-70b 67%，GPT-3.5 60%，Llama3-8b 40%
MountainCar 判断动作（自动评估）	GPT-4o 81%，Llama3-70b 65%，GPT-3.5 67%，Llama3-8b 52%
错误计数（MountainCar 50步）	Llama3-8b 错误最多（任务理解错误30次）；GPT-4o 错误最少（仅Missing Info 6次）
确认偏误 p值	paired t-test p=0.45 > 0.05，人工与自动评估差异不显著

稳健性

格式消融：去除历史索引编号会降低大多数任务的表现；去除任务描述也会降低表现，说明提示的内容和格式均重要。
状态跨度分析：状态元素的变化跨度与预测准确率呈正线性关系（MountainCar $R^2=1.00$ ），跨度越大越容易感知变化。
模型规模：GPT-4o 在所有指标上总体最优，但小模型（Llama3-8b）在某些状态元素预测上可与大模型媲美，说明动态理解不完全依赖模型规模。

与其他研究的比较

不同于 in-context RL 研究（Laskin et al., 2022; Lee et al., 2023; Wang et al., 2024）关注优化LLM本身，本文聚焦评估LLM现有的推理能力。
不同于 Liu et al. (2022) 使用物理教科书文本，本文使用真实物理模拟器的RL交互数据。
与 Xu et al. (2022) 的 decision transformer 方向互补：本文不优化模型，而是评估off-the-shelf能力。

维度6：与其他文献的关系

领域位置

本文位于 可解释强化学习（Explainable RL） 与 大语言模型推理能力评估 的交叉领域。它是首个系统性地研究LLMs能否为RL智能体建立心智模型的实证工作，属于 AI 可解释性方向而非实验经济学。

对话论文

方向	关键文献
可解释RL	Milani et al. (2024, ACM Computing Surveys); Greydanus et al. (2018, ICML); Iyer et al. (2018); Bastani et al. (2018)
LLM推理能力	Kojima et al. (2022); Wei et al. (2022b, CoT); Razeghi et al. (2022)
In-context RL	Laskin et al. (2022); Lee et al. (2023); Lin et al. (2023); Wang et al. (2024)
LLM作为世界模型	Liu et al. (2022); Xiang et al. (2023); Lake et al. (2017)
心智模型理论	Johnson-Laird (1983); Bansal et al. (2019)
LLM用于具身任务	Li et al. (2022a); Huang et al. (2023); Driess et al. (2023, PaLM-E)

新贡献

首个实证基准：系统评估LLMs对RL智能体行为和环境动态的理解能力，提出 LLM-Xavier 评估框架。
评估指标体系：设计五个可操作化的预测任务（三个行为理解 + 两个动态理解），覆盖离散/连续状态和动作空间。
偏差发现：揭示LLMs在心智建模中的确认偏误和预训练偏差，为理解LLM推理局限性提供新视角。
实践启示：指出当前LLMs不足以独立完成智能体心智建模，需要领域专家参与审核，为未来LLM辅助可解释RL指明方向。

注意

本文不是实验经济学论文，而是机器学习/AI领域的计算实验论文。其研究对象是LLM对RL智能体的理解能力，不涉及人类被试的经济决策实验。但其中关于"确认偏误"和"预训练偏差"的发现与行为经济学中的信念偏差概念有概念层面的联系。

维度4：变量概览

变量/参数	定义	取值范围/示例
$\mathcal{M}$	马尔可夫决策过程（MDP）	$(\mathcal{S}, \mathcal{A}, T, R, \gamma)$
$\pi$	RL 智能体策略	$\pi: \mathcal{S} \to \mathcal{A}$
$T$	环境转移函数	$T: \mathcal{S} \times \mathcal{A} \to \mathcal{S}$
$(s_t, a_t, r_t)$	单步交互轨迹	提供给 LLM 的核心数据单元
$H$	历史窗口长度	0, 1, 2, 3, 5, 10, 20 步
被测 LLM	评估对象	Llama3-8B-Instruct, Llama3-70B-Instruct, GPT-3.5-turbo, GPT-4o
测试环境（7 个）	评估基准	MountainCar (2D 状态/3 动作), Acrobot (6D), LunarLander (8D), Pendulum (3D 状态/1D 连续动作), FetchPickAndPlace (25D/4D), FetchPush, FetchSlide
RL 算法	训练智能体所用	DDPG (Lillicrap 2015), DQN (van Hasselt 2016), PPO (Schulman 2017)
行为理解指标	$\pi$ 维度	(1) Next Action Prediction; (2) Last Action Prediction; (3) Judging Next Action
动态理解指标	$T$ 维度	(4) Next State Prediction; (5) Last State Prediction
CoT	推理策略	Chain-of-Thought（先推理后回答）
Accuracy / Matching Rate	评价指标	正确预测数 / 查询总数
bin 离散化	连续动作处理	量化为 10 个 bin
状态变化方向	连续状态处理	increase / decrease / unchange
错误类型（6 类）	人工分析	任务理解 / 逻辑 / 历史理解 / 物理理解 / 数学理解 / 信息缺失
样本规模	每任务查询数	约 2000 个查询样本
总查询数	约 14,000 个	跨 7 任务 × 4 模型 × 5 指标

维度5：局限性

环境覆盖有限：7 个 OpenAI Gym 环境主要为低维物理仿真（最高 25 维），未涵盖更复杂的现实世界场景（如 Atari 像素游戏、机器人操作、自然语言对话环境）。
模型选择局限：仅评估 4 个 LLM，缺少 Claude、Gemini、Mistral 等其他主流模型的对比；未涵盖专门针对 RL/控制任务微调的模型。
未操纵预训练数据：无法分离 LLMs 表现来源——是真正的推理能力，还是预训练时见过类似的物理仿真数据？
评估指标单一：使用 accuracy/matching rate，未考虑预测的置信度、不确定性、推理步骤数等更细粒度指标。
CoT 单一推理策略：仅使用 Chain-of-Thought，未对比 Tree-of-Thoughts、self-consistency、ReAct 等更高级推理范式。
不衡量"知道自己不知道"：未评估 LLM 元认知能力（meta-cognition）——即识别自身预测不确定性。
缺乏跨域泛化检验：训练/查询都在同一类物理仿真环境，未检验 LLM 是否能从一个环境的理解迁移到另一个环境。
错误分类主观性：6 类错误的人工标注由作者完成，缺少跨标注者一致性（inter-rater reliability）。
静态评估：未让 LLM 主动与环境/智能体交互（active learning），仅被动观察。
行为偏差未量化：确认偏误和预训练偏差被定性识别，但未提出严格的统计检验或偏差大小度量。

维度7：可拓展的研究方向

主动心智建模：让 LLM 主动选择查询的状态/动作组合（active learning），考察是否能加速心智模型构建（参考贝叶斯实验设计）。
跨环境泛化：测试 LLM 在 MountainCar 上学到的物理直觉能否迁移到 Pendulum 或 LunarLander，与人类的迁移学习能力对比。
元认知评估：要求 LLM 报告每个预测的置信度，检验校准（calibration）质量；与 Enke_Graeber_2023_CognitiveUncertainty 中的人类认知不确定性研究对照。
多智能体心智建模：扩展到多智能体 RL（MARL），考察 LLM 能否同时建模多个智能体的策略和它们的交互。
行为经济学应用：用类似框架评估 LLM 是否能为人类决策者建立心智模型——例如观察实验经济学被试的选择序列，预测下一选择。这与 Bini_BehavioralEconomics_AI_LLMBiases、Chen_Kirshner_2025_ChatGPT_BiasedDecisions 的研究方向直接相关。
金融市场应用：将 LLM-Xavier 框架应用于交易者行为建模——观察某交易者的历史交易，预测下一笔交易；评估 LLM 能否识别"动量交易者""价值投资者"等类型，与 Hashimoto_Takayanagi_2026_LLMAgents_HumanBias_MarketDynamics 联动。
缓解预训练偏差：通过 RLHF、in-context demonstration 或微调，研究是否能消除 LLM 假设智能体最优的确认偏误。
长上下文优化：研究位置编码（RoPE 缩放、ALiBi）、检索增强（RAG）、轨迹摘要等技术能否消除 $H=20$ 时的性能退化。
物理仿真之外：扩展到社交博弈、议价、市场制造等经济学相关环境，评估 LLM 对策略性智能体的心智建模能力。
可解释性桥梁：将 LLM 心智建模作为传统可解释 RL（saliency maps, decision trees）的自然语言解释层，构建人类可读的智能体行为报告。
认知科学映射：与人类心智模型形成机制（错误知识结构、刻板印象、近因效应）系统对比，研究 LLM 是否复现人类的心智建模偏差。

关键结论

LLMs 具有部分心智建模能力但远非完善：MountainCar（最简单，2 维状态）上 GPT-4o 准确率超 75%（随机基线 33%），但在 Fetch 系列（25 维状态）上性能严重退化，说明能力强烈依赖任务复杂度。
历史长度呈倒 U 型效应： $H=3{\sim}5$ 步历史最优， $H=20$ 步反而下降——LLMs 难以有效利用长上下文中的序列数据，与"更多上下文 = 更好理解"的常见假设相悖。
GPT-4o 总体最优但仍有错误：在判断动作任务上 GPT-4o 达 81-85% 准确率（人工/自动评估均值），但仍存在 Missing Information（6 次错误）和确认偏误等问题。
小模型在某些指标上意外接近大模型：Llama3-8b 在 Pendulum 连续动作绝对值预测上达 47.73%，与 GPT-3.5 (56.82%) 差距不大；说明动态理解不完全依赖模型规模。
离散预测优于 bin 预测：连续动作量化为 bin 预测时性能最差（Llama3-8b Pendulum bin 仅 10.87%），但预测绝对值时性能大幅提升（47.73%）——提示词格式至关重要。
确认偏误与预训练偏差不可消除：即使提供长历史，LLMs 仍假设智能体行为最优（确认偏误）并倾向保守动作（预训练偏差）；增加历史长度不能减弱这些偏差。
状态变化跨度与预测准确率正相关：MountainCar 中 $R^2=1.00$ ，跨度大的状态元素更易被 LLM 感知。
格式细节关键：去除历史索引编号、去除任务描述均显著降低性能，说明提示工程对 LLM 心智建模能力至关重要。
人机协作建议：当前 LLMs 不足以独立完成 RL 智能体心智建模，建议作为辅助工具与领域专家协同使用。
对行为金融的启示：LLMs 表现出的"假设理性最优"确认偏误，与人类研究者过度依赖 EMH 假设有异曲同工之处；这一发现警示在使用 LLM 解释市场参与者行为时需特别注意系统性偏差。

Lu_Zhao_2024_MentalModelling_RL_LanguageModels

Mental Modelling of Reinforcement Learning Agents by Language Models

一句话总结

研究问题

核心贡献

维度1：实验设计分析

实验任务详细流程

其他实验设计要素

维度2：理论模型

基准理论

行为偏差的形式化

关键假设

可检验预测

维度3：核心发现

主要结论

关键 Effect Size

稳健性

与其他研究的比较

维度6：与其他文献的关系

领域位置

对话论文

新贡献

维度4：变量概览

维度5：局限性

维度7：可拓展的研究方向

关键结论

🔗 链接到这篇笔记