Behavioral Economics of AI: LLM Biases and Corrections

一句话总结

通过对 4 个 LLM 家族（ChatGPT、Claude、Gemini、Llama）共 12 个模型在 16 个经典行为经济学问题上各运行 100 次（共约 19200 次回复），首次系统建立"AI 的行为经济学"研究领域，发现 LLM 在偏好维度上随模型进化变得更"类人"（更不理性）、在信念维度上随模型进化变得更理性的不对称模式，并验证简洁的角色引导是最有效的去偏方法。

研究问题

LLMs 在偏好（preferences）和信念（beliefs）两个维度上是否表现出与人类相似的系统性行为偏差？
这些偏差如何随模型代际（version）和规模（size）变化？是否存在偏好与信念之间的不对称模式？
不同 LLM 家族（OpenAI、Anthropic、Google、Meta）之间的偏差是否存在显著异质性？
哪些去偏方法（debiasing techniques）能最有效地纠正 LLM 的行为偏差？提供更多信息是否一定有助于去偏？

核心贡献

开创新研究领域：首次系统提出"Behavioral Economics of AI"概念，将 GenAI 智能体视为需要用行为经济学方法研究的"新物种"，建立可复制的实验范式。
大规模系统比较：4 大 LLM 家族 × 12 个模型 × 16 个经典实验问题 × 每问 100 次回复，提供迄今最系统的 LLM 行为偏差基准数据库。
揭示偏好-信念不对称：发现随模型规模/代际进化，LLM 在偏好任务（前景理论、损失厌恶、双曲贴现等）上变得更"类人"（更不理性），但在信念任务（贝叶斯推理、合取谬误等）上变得更理性。这一不对称是新的实证规律，作者推测源于 RLHF 训练（贴近人类偏好）vs 更大数据/算力（识别统计规律）的不同机制。
家族异质性：Probit 回归显示 Gemini 在偏好任务上比 GPT 类人回答概率高 16.7%（5% 显著），Llama 在信念任务上比 GPT 类人回答概率高 21.0%（5% 显著），其他家族无显著差异。
复制 Afrouzi et al. (2023) 的过度外推实验：小规模模型在自回归预测中表现出过度外推（感知持久性 > 真实持久性），且低 ρ 时偏差更大；长期预测即使大模型也产生类人偏差。
发现 LLM 特有的"信息过载效应"：提供更详细的数据生成过程信息或额外去偏文本（如 K&T 1979 关键发现摘要），反而增加偏差（理性回答减少 26%）；这一现象为 LLM 独有，与人类心理学预测相反。
简洁角色引导最有效：单纯提示"你是一个理性投资者"使理性回答增加 4.3%（偏好任务，5% 显著），是各种去偏方法中最简洁有效的。
政策启示：（i）金融应用需谨慎，LLM 可能系统性传递前景理论偏好；（ii）模型选择应区分偏好/信念任务；（iii）规模不等于质量；（iv）简洁提示优于详细指令。

维度1：实验设计分析

一、研究目的与核心问题

本文开创性地提出"AI 的行为经济学"(Behavioral Economics of AI)这一新研究领域,系统检验大语言模型(LLMs)在经济与金融决策中是否表现出与人类相似的行为偏差,并探索纠正这些偏差的方法。

核心研究问题:

LLMs 是否在偏好(preferences)和信念(beliefs)两个维度上表现出系统性行为偏差?
这些偏差如何随模型版本(代际)和模型规模的变化而变化?
不同 LLM 家族之间的偏差是否存在显著异质性?
哪些去偏方法(debiasing techniques)能有效纠正 LLM 的行为偏差?

研究动机: AI 和 LLM 日益深入经济活动(银行、金融科技、风险管理等),但对其行为的系统性偏差知之甚少。理解 LLM 的"行为经济学"对于评估 AI 的可靠性、安全性和适用性至关重要。

二、研究方法与实验设计

2.1 实验问题选择

从认知心理学文献和实验经济学文献中选取了 16 个经典实验问题,分为两大类:

偏好心理学(Psychology of Preferences) -- 6 个问题:

编号	偏差类型	备注
Q1	前景理论 -- 敏感度递减 (Diminishing Sensitivity)	风险偏好
Q2	前景理论 -- 损失厌恶 (Loss Aversion)	风险偏好
Q3	前景理论 -- 概率加权 (Probability Weighting)	风险偏好
Q4	窄框架 (Narrow Framing)	风险偏好
Q5	模糊厌恶 (Ambiguity Aversion)	风险偏好
Q6	双曲贴现 (Hyperbolic Discounting)	时间偏好

信念心理学(Psychology of Beliefs) -- 10 个问题:

编号	偏差类型
Q7-Q9	样本量忽视 (Sample Size Neglect)
Q10	基率忽视 (Base Rate Neglect)
Q11	合取谬误 (Conjunction Fallacy)
Q12	赌徒谬误 (Gambler's Fallacy)
Q13	确认偏差 (Confirmation Bias)
Q14	锚定效应 (Anchoring)
Q15	过度自信 -- 过度精确 (Overprecision)
Q16	过度自信 -- 过度估计 (Overestimation)

这三类偏差(前景理论偏好、过度外推、过度自信)被 Barberis (2018) 认为是金融市场中驱动投资者行为、公司行为和资产价格的"三大"核心偏差。

2.2 LLM 选择

选取四大 LLM 家族共 12 个模型,每个家族包含三个版本:

家族	基准模型(大规模先进)	小规模先进	旧版本
ChatGPT	GPT-4	GPT-4o	GPT-3.5 Turbo
Anthropic Claude	Claude 3 Opus	Claude 3 Haiku	Claude 2
Google Gemini	Gemini 1.5 Pro	Gemini 1.5 Flash	Gemini 1.0 Pro
Meta Llama	Llama 3 70B	Llama 3 8B	Llama 2 70B

2.3 实验方法

通过 API 接口向 LLM 提交标准化提示词(prompt),每个问题 x 每个模型收集 100 次回复
温度参数设为 0.5
每个 LLM 回复被分类为三种之一:理性的(rational)、类人的(human-like)、其他(other)
额外采用 Afrouzi et al. (2023) 的实验设计,让 LLM 预测自回归过程的未来值,比较感知持久性与真实持久性
使用 probit 回归分析异质性

三、核心发现

发现一：偏好与信念的不对称模式

偏好类问题: LLM 的回答随模型更先进/更大规模而变得越来越"类人"(即不理性)

Gemini 1.5 Pro: 6 个偏好问题中 5 个以类人回答为主
Claude 3 Opus: 6 个中 4 个以类人回答为主
GPT-4 和 Llama 3 70B: 6 个中 3 个以类人回答为主

信念类问题: LLM 的回答随模型更先进/更大规模而变得越来越理性

Gemini 1.5 Pro: 10 个信念问题中 10 个以理性回答为主
GPT-4 和 Claude 3 Opus: 10 个中 8 个以理性回答为主
Llama 3 70B: 10 个中仅 5 个以理性回答为主

发现二：模型代际与规模的影响(Probit 回归结果)

偏好类问题:

更先进的模型 --> 理性回答概率降低,类人回答概率升高(统计显著)
更大规模的模型 --> 同样趋势

信念类问题:

更先进的模型 --> 理性回答概率升高,类人回答概率降低(统计显著)
更大规模的模型 --> 同样趋势

猜想: 偏好类的类人化可能源于 RLHF 训练使模型更贴近人类偏好;信念类的理性化可能源于更大训练数据和计算能力使模型更好地识别统计规律。

发现三：LLM 家族间的异质性

偏好类问题: Gemini 比 GPT 产生理性回答的概率低 22.9%(1% 显著),类人回答概率高 16.7%(5% 显著);Claude 和 Llama 与 GPT 无显著差异
信念类问题: Llama 比 GPT 产生理性回答的概率低 25.0%(5% 显著),类人回答概率高 21.0%(5% 显著);Claude 和 Gemini 与 GPT 无显著差异

发现四：时间序列预测中的偏差

基于 Afrouzi et al. (2023) 自回归预测实验:

大规模先进模型(GPT-4, Claude 3 Opus, Gemini 1.5 Pro)的短期预测基本理性,感知持久性接近真实值
小规模先进模型(GPT-4o, Claude 3 Haiku, Gemini 1.5 Flash)的预测表现出类人偏差:感知持久性显著高于真实值(过度外推),且低 rho 值时偏差更大
长期预测即使在大规模模型上也产生类人偏差
提供更详细的数据生成过程信息反而增加偏差(信息过载效应),此结果为 LLM 独有

发现五：纠偏方法的效果

方法	偏好类效果	信念类效果
角色引导 -- "理性投资者"	理性回答 +4.3% (5% 显著)	理性回答 +3.3% (10% 显著)
角色引导 -- "散户投资者"	理性回答 -3.9% (5% 显著)	无显著变化
理性投资者 + EU 四步程序	无效	--
理性投资者 + K&T(1979)关键发现摘要	理性回答 -26%,类人回答 +18%	--

核心结论: 简单的角色引导(prompting LLM 按期望效用框架做决策)是最有效的去偏方法;提供额外的去偏信息反而可能适得其反,信息过载会阻碍 LLM 给出理性回答。

四、理论贡献与实践启示

理论贡献

开创新领域: 首次系统提出"AI 行为经济学"概念,将 GenAI 智能体视为一个需要用行为经济学方法研究的"新物种"
揭示不对称模式: 发现 LLM 在偏好和信念两个维度上随模型进化呈现相反的趋势,强调了分别研究偏好与信念的重要性
建立基准数据库: 为持续评估各种 LLM 的行为偏差提供了公开的实验问题数据库
发现信息过载效应: 对 LLM 提供更多信息(即使是有用的去偏信息)反而可能增加偏差,这一发现为 LLM 特有

实践启示

金融应用风险: LLM 在金融决策辅助中可能系统性地表现出前景理论偏好(损失厌恶、敏感度递减等),需谨慎使用
简洁提示更有效: 在应用场景中,简短的角色引导(如"你是一个理性投资者")比提供详细指令或背景知识更有效地减少偏差
模型选择策略: 不同 LLM 家族在偏好和信念维度上的偏差模式不同,应根据应用场景选择合适的模型
规模不等于质量: 更大规模的模型并不在所有维度上更优 -- 在信念方面更理性,但在偏好方面反而更"不理性"

与信念实验项目的关联

本文与信念相关实验高度相关:

系统检验了 LLM 在 10 种信念偏差上的表现(样本量忽视、基率忽视、合取谬误、赌徒谬误、确认偏差、锚定、过度自信等)
提供了用 LLM 模拟人类信念形成过程的实验范式参考
揭示了 LLM 作为实验工具时的可靠性边界 -- 大规模模型在信念任务上较理性,可能不适合模拟有偏的人类信念
角色引导(role-priming)方法可作为实验设计中调节 LLM 行为的工具

关键参考文献

Kahneman & Tversky (1979) -- 前景理论
Barberis (2018) -- 金融市场三大心理偏差
Afrouzi et al. (2023) -- 预期过度反应实验
Stiennon et al. (2020) -- RLHF 训练方法
Ellsberg (1961) -- 模糊厌恶
Chen et al. (2023) -- GPT 的经济理性

笔记创建: 2026-03-26

维度2：理论模型

概念框架

本文将 LLMs 视为"经济学决策主体"（economic decision-making agents），借用经典行为经济学范式（前景理论、双曲贴现、贝叶斯推理违背等）作为基准测试。核心理论假设：

若 LLM 严格遵循训练目标（next-token prediction + RLHF），则其行为应反映训练数据中的人类回答分布；
若 LLM 通过更大数据/算力学到了底层统计/数学规律，则其在信念任务上可能超越人类水平；
若 RLHF 主要校准"人类偏好"，则 LLM 在偏好任务上反而会贴近人类的非理性；
因此偏好-信念不对称应随模型进化而显现。

偏差分类（基于 Barberis 2018 的"金融三大偏差"框架）

前景理论偏好（Prospect Theory）：损失厌恶、敏感度递减、概率加权
过度外推（Overextrapolation）：从近期信号过度推断长期趋势
过度自信（Overconfidence）：过度精确（overprecision）+ 过度估计（overestimation）

实证策略

Probit 回归：因变量为"理性/类人/其他"分类回复，自变量为模型代际、规模、家族指示变量；估计每个偏差的边际效应及统计显著性
去偏方法对比：以四种 prompt 处理（基础、理性投资者引导、散户投资者引导、引导+EU 四步、引导+K&T 摘要）作为 between-subjects 处理，测量理性回答比例变化
时间序列预测复制：基于 Afrouzi et al. (2023)，让 LLM 预测 AR(1) 序列未来值，比较"感知持久性"(implied ρ) 与真实持久性

维度3：核心发现

发现 1：偏好与信念的不对称

模型	偏好题（6 题）类人回答主导数	信念题（10 题）理性回答主导数
Gemini 1.5 Pro	5/6	10/10
Claude 3 Opus	4/6	8/10
GPT-4	3/6	8/10
Llama 3 70B	3/6	5/10

发现 2：模型代际/规模效应（Probit 回归）

偏好类：模型越先进/越大，理性回答概率显著降低，类人回答概率显著上升
信念类：模型越先进/越大，理性回答概率显著上升，类人回答概率显著降低
不对称模式得到稳健统计支持

发现 3：家族异质性

偏好任务：Gemini vs GPT，理性回答概率低 22.9%（1% 显著），类人回答概率高 16.7%（5% 显著）
信念任务：Llama vs GPT，理性回答概率低 25.0%（5% 显著），类人回答概率高 21.0%（5% 显著）
Claude 与 GPT 在两类任务上均无显著差异

发现 4：时间序列过度外推（基于 Afrouzi 等 2023）

大规模先进模型（GPT-4, Claude 3 Opus, Gemini 1.5 Pro）短期预测基本理性，感知 ρ 接近真实 ρ
小规模先进模型（GPT-4o, Claude 3 Haiku, Gemini 1.5 Flash）短期预测过度外推，感知 ρ 显著高于真实 ρ
长期预测即使大模型也表现类人偏差
信息过载：提供更详细的数据生成过程信息反而增加偏差

发现 5：去偏方法效果

方法	偏好任务	信念任务
"理性投资者"角色引导	理性 +4.3% (5%*)	理性 +3.3% (10%*)
"散户投资者"角色引导	理性 -3.9% (5%*)	无显著
理性 + EU 四步	无效	--
理性 + K&T 摘要	理性 -26%, 类人 +18%	--

核心结论：简洁角色引导最有效；信息过载反而增加偏差。

维度4：变量概览

Outcome变量

变量	定义	测量方式
回答分类	rational / human-like / other	基于经典文献基准对每条 LLM 回复人工/规则分类
理性回答比例	100 次中 rational 标签占比	频率统计
类人回答比例	100 次中 human-like 标签占比	频率统计
感知持久性 (perceived ρ)	LLM 预测序列拟合的 AR(1) 系数	OLS 拟合
去偏效果	处理组 vs 对照组的理性回答比例差	双样本比例检验

Treatment变量

维度	处理
模型规模	大规模先进 / 小规模先进 / 旧版本
模型家族	ChatGPT / Claude / Gemini / Llama
偏差类型	6 个偏好 + 10 个信念 = 16 个经典实验
去偏处理	基础 / 理性投资者引导 / 散户投资者引导 / 引导+EU四步 / 引导+K&T摘要
信息量（AR预测）	简短 vs 详细数据生成过程描述
预测期限	短期 vs 长期

Control变量

API 温度参数固定为 0.5
每个问题 × 模型组合运行 100 次（控制随机性）
标准化提示词模板
一致的回答分类规则

Heterogeneity变量

模型代际（GPT-3.5 / GPT-4 / GPT-4o 等）
模型规模（70B / 8B 等）
LLM 家族
偏差类别（偏好 vs 信念）
任务时间跨度（短期 vs 长期预测）

维度5：局限性

回答分类的主观性：rational/human-like/other 的分类依赖人工/规则判断，不同研究者可能得出不同结果；缺乏盲法编码。
温度参数固定：温度 = 0.5 可能未充分反映 LLM 在不同采样策略下的行为分布；高温度（创造性）vs 低温度（确定性）下的偏差模式可能不同。
提示词敏感性：LLM 对提示词措辞极为敏感，单一提示词版本无法穷尽所有等价表达；可能存在提示词工程偏差。
未控制 API 端的更新：商用 LLM（GPT-4 等）会持续更新，结果可能不可完全复制。
"类人"基准的模糊性：人类偏差本身存在异质性（如不同文化、教育、专业群体的偏差程度不同），将"人类基准"单一化可能掩盖关键异质性。
样本规模有限：每个问题 100 次回复对于罕见类别的精确推断功效不足；某些去偏处理的效应估计可能噪声较大。
未涉及多轮对话/智能体行为：仅测试单轮 Q&A，未涉及 LLM 作为多轮谈判者、市场参与者、agentic 决策者时的偏差表现。
未微观化机制：偏好-信念不对称的解释为推测性（RLHF vs 数据/算力），缺乏直接因果证据；需消融实验/训练数据访问验证。
去偏方法范围有限：仅测试 4 种 prompt 策略，未探索 fine-tuning、思维链（CoT）、reflection、多智能体辩论等更复杂的去偏方法。
未涉及实际经济后果：未将 LLM 偏差与真实金融决策、用户福利、市场效率等下游结果关联。

维度6：与其他文献的关系

直接对话文献

文献	对话关系
Kahneman & Tversky (1979)	前景理论基础；本文实验问题来源
Barberis (2018)	"金融三大行为偏差"框架的实证检验
Afrouzi et al. (2023)	复制其过度外推实验范式至 LLM
Stiennon et al. (2020)	RLHF 训练机制，是本文偏好类人化解释的核心机制
Chen et al. (2023)	GPT 经济理性的早期评估，本文系统化扩展
Ellsberg (1961)	模糊厌恶基础

与 Xinwiki 已有相关笔记的连接

Hashimoto_Takayanagi_2026_LLMAgents_HumanBias_MarketDynamics：LLM 智能体如何在市场动态中复制人类偏差；本文为该方向提供了基准偏差数据库
可与 LLM 在金融实验市场中的复制能力研究（Henning 2025、Lopez-Lira、Li 2026 等）配合使用

创新位置

本文位于以下交叉领域：

行为经济学 × AI/ML：将经典实验范式应用于 LLM
金融 × AI 安全：评估 LLM 在金融决策辅助中的可靠性
认知心理学 × 大模型评估：建立"AI 心理学"评估方法

后续被引方向

LLM 作为人类被试替身（"silicon subjects"）的可靠性评估
AI 辅助投资决策的监管框架
AI 智能体在多智能体经济仿真中的偏差传染

维度7：可拓展的研究方向

多轮对话/智能体测试：将单轮 Q&A 扩展为多轮谈判、议价、拍卖、交易等场景，检验 LLM 偏差在动态交互中的演化。
fine-tuning 干预：通过监督微调专门去偏数据集，检验能否在不损失通用能力的前提下减少特定行为偏差。
思维链（CoT）/ Reflection 去偏：测试更复杂的提示工程（CoT、self-reflection、debate）能否突破"信息过载效应"。
机制探究：通过消融实验（如对比 base model 与 RLHF 后版本）直接检验"RLHF 导致偏好类人化"的因果假设。
跨文化偏差：在不同语言/文化的 prompt 下测试同一 LLM，研究文化嵌入是否传递特定的偏差模式。
LLM 模拟人类被试：评估在哪些行为经济学实验中，LLM 可作为人类被试的可靠替代品（"silicon subjects"），降低实验成本。
AI 智能体多智能体市场：用本文识别的偏差参数化 LLM 智能体，构建实验市场，研究偏差在市场中的均衡效应（与 Hashimoto & Takayanagi 2026 相关）。
金融决策下游后果：将 LLM 用作金融顾问或自动交易代理，测量其偏差对真实用户的财富/效用影响。
偏差时间漂移：长期纵向追踪同一商用 LLM（如 GPT-4），研究模型版本更新如何改变其偏差谱。
去偏的成本-收益权衡：不同去偏方法的代价（响应延迟、能耗、性能损失）与收益（偏差减少程度）的系统比较。
偏差的对抗性诱导：测试是否可以通过特殊提示词诱导 LLM 表现出特定偏差，用于压力测试 AI 安全性。
真实金融数据复制：用 LLM 重做经典股市/资产泡沫实验（如 SSW），比较 LLM 与人类被试的市场动态差异。
跨模型一致性度量：开发量化指标度量不同 LLM 间的"偏差距离"，作为 AI 监管中模型审计的工具。
Reasoning 模型对比：评估新一代 reasoning 模型（如 o1, o3, DeepSeek-R1）相比基础 LLM 在偏好/信念任务上的差异，检验"推理增强"是否能破解信息过载效应。

关键结论

LLM 表现显著行为偏差：在 16 个经典行为经济学问题上，LLMs 普遍表现出与人类相似的系统性偏差，无法被视为完全理性的经济决策主体。
偏好-信念不对称是核心实证规律：随模型代际/规模进化，LLM 在偏好任务上变得更"类人"（更不理性），但在信念任务上变得更理性；这一不对称是新发现，可能源于 RLHF 训练 vs 数据/算力提升的不同机制。
家族异质性显著：Gemini 在偏好任务上偏差最强（vs GPT 类人率 +16.7%），Llama 在信念任务上偏差最强（vs GPT 类人率 +21.0%）；Claude 与 GPT 接近。
过度外推因模型规模而异：大模型在短期 AR 预测中基本理性，小模型与所有模型的长期预测均表现过度外推。
信息过载效应（LLM 独有）：提供更详细的数据生成过程信息或长文本去偏指引反而显著增加偏差，理性回答减少 26%。
简洁角色引导是最有效的去偏方法：单纯提示"理性投资者"使理性回答 +4.3%（偏好）和 +3.3%（信念），优于详细指令或理论摘要。
规模 ≠ 质量：更大规模模型在信念任务上更优，但在偏好任务上反而"更不理性"——AI 模型选择需根据应用场景的偏差敏感性区分。
金融应用风险：LLM 在金融决策辅助场景中可能系统性传递前景理论偏好（损失厌恶、敏感度递减、概率加权扭曲等），需严格评估。
理论意义：开创"AI 行为经济学"新研究领域，为后续 AI 监管、AI 安全、AI 金融应用提供基础实证框架。
方法贡献：建立可复制的 LLM 行为偏差基准数据库，为持续追踪 AI 模型演化的行为后果提供工具。

Bini_BehavioralEconomics_AI_LLMBiases