Bao_2024_ReadingMarket_ExpectationCoordination_TheoryOfMind

一句话总结

本文通过Learning-to-Forecast实验（LtFE）检验Theory of Mind（ToM）能力是否有助于预期协调和减少价格泡沫，发现尽管Low-ToM组的泡沫在经济意义上大约65%更大，但统计上两组在价格偏离、波动性和预期协调方面均无显著差异。

研究问题

如果资产市场中所有交易者都擅长"reading the market"——即能准确推断他人意图——市场是否会更稳定、波动更小、泡沫更少？具体而言，Theory of Mind（ToM）能力是否有助于增强预期协调（expectation coordination）并减少LtFE实验中的价格泡沫？

核心贡献

首次在LtFE框架中系统检验ToM对市场层面预期协调和价格泡沫的因果效应，而非仅关注个体交易表现
使用unincentivized eye gaze test（Baron-Cohen et al., 1997）作为ToM能力的测量工具，将其应用于金融市场实验
提供了ToM对市场动态影响有限的实证证据——尽管效应量大（Cohen's d约0.46-0.76），但统计不显著，表明按ToM分组仍存在显著的信念形成异质性
分析了个体层面的预测策略（adaptive, trend-following, naive, fundamental），发现两组在策略采用上无显著差异

维度1：实验设计分析

总体设计

本实验为预注册研究（AEA RCT Registry, ID: AEARCTR-0,007,836），在东北财经大学实验经济学实验室进行。实验分两波进行：Season 2021（2021年10月和11月，6个session）和Season 2022（2022年11月，10个session），共16个session。每个session有24名被试参与，总计384名被试（均为东北财经大学本科生）。每人只能参加一次。被试通过微信平台在实验室招募。实验使用z-Tree（Fischbacher, 2007）编程。每个session持续约1小时，被试平均报酬为37.5元人民币（约5.2美元），远高于大连本科生小时工资水平（标准差17.27元）。

被试经历的完整时间线

第一部分：Eye Gaze Test（ToM能力测量）

被试进入实验室后，首先完成Baron-Cohen et al.（1997）的eye gaze test。该测试用于评估被试的Theory of Mind能力，即通过观察他人面部表情推断其心理状态的能力。

具体步骤：被试在屏幕上依次看到36张不同人物眼部区域的照片。对于每张照片，被试需要从给定的情绪选项中选择一个最能描述该人物心理状态的词语（每道题提供若干个情绪描述词作为选项，被试选择最匹配的一个）。正确回答数量越多，表明ToM能力越高。

每个session中，被试按ToM得分从1到24排名（1为最高，24为最低）。排名1-6的被试被分入High-ToM组，排名19-24的被试被分入Low-ToM组。排名7-12的被试被分入Middle-High组，排名13-18的被试被分入Middle-Low组。主分析仅比较High-ToM（16个市场）和Low-ToM（16个市场）两个极端组。

关键设计选择：实验者不告知被试他们是按ToM得分分组的，以避免Cognet et al.（2021b）中发现的common information effect——即告知被试同质分组可能本身影响信息聚合。同样，实验者不告知被试其eye gaze test的表现反馈，以消除表现反馈对后续预测行为的潜在影响。

第二部分：Learning-to-Forecast Experiment（LtFE）

每个市场由6名被试组成。被试扮演金融顾问的角色，为投资基金提供买卖风险资产的建议。在50个连续期中，每个被试需要在每期提交对风险资产下一期价格的预测。

市场价格决定机制：

市场价格由如下公式决定：

p(t) = \frac{1}{1+r}(\bar{p}^e(t) + d) + \varepsilon_t

其中：

$p(t)$ 为第 $t$ 期实现的市场价格
$\bar{p}^e(t)$ 为所有6名被试价格预测的平均值
$d = 3.30$ 为风险资产每期支付的股利
$r = 5\%$ 为无风险利率
$\varepsilon_t \sim N(0, 1)$ 为i.i.d.小冲击

这是一个正反馈（positive feedback）LtFE设计：资产价格是平均预期的递增函数。在理性预期均衡（REE）下，若所有人都有理性预期（即 $\bar{p}^e(t) = p^f$ ），简单计算得到基本面价值为 $p^* = \frac{d}{r} = \frac{3.30}{0.05} = 66$ 。

屏幕界面（参见论文Fig. 1）：

被试在每期看到的界面包含四个区域：

左上方图表：显示被试自己的价格预测（红色虚线）和过去已实现的市场价格（蓝色实线）的时间序列图
中间信息栏：显示当前期数（如"Current period: 25"）、无风险资产利率（Risk-free asset interest rate: 5.00%）、风险资产期望股利（Expected dividend from risky asset: 3.30）、被试累计收益（Total earning you have earned: 518.84）
左下方输入框：要求被试输入对当期风险资产价格的预测（精确到小数点后2位），并点击确认按钮
右侧表格：显示过去各期被试自己的价格预测和已实现市场价格的历史数据

报酬机制：

被试的收入与预测误差（prediction error）挂钩。每期收入公式为：

earnings = \max\left\{100 - \frac{100}{49}(prediction\ error)^2,\ 0\right\}

其中 $prediction\ error = p_t - p_t^e$ （实现价格与被试预测之差）。即预测误差越小收入越高，预测误差达到7个单位时收入降为0。这一设计使得所有被试的目标一致：预测最接近实现价格，而实现价格本身取决于所有人预测的平均值。因此被试最优策略是预测其他人的预测——这正是Keynes选美竞赛（beauty contest）的逻辑，也是ToM能力可能发挥作用的核心渠道。

第三部分：认知能力测试

LtFE结束后，被试完成以下测试：

Numeracy Test：使用Weller et al.（2013）的简化数字素养量表，测量被试的数字推理和概率理解能力
Cognitive Reflection Test (CRT)：使用Frederick（2005）的CRT量表，测量认知反射能力。设计上选择了高CRT难度版本（即所有被试常见的CRT信息），以避免common information effect
Self-Monitoring Test（仅Season 2022）：使用Snyder（1974）的自我监控量表，测量被试对社会线索的注意力和对自身行为在社会情境中的调节能力

第四部分：人口统计信息

被试报告性别和年龄信息。

处理组与样本

组别	ToM得分排名	每组session数	每组市场数	每组被试数
High-ToM	1-6（最高）	16	16	96
Middle-High	7-12	16	16	96
Middle-Low	13-18	16	16	96
Low-ToM	19-24（最低）	16	16	96

主分析仅比较High-ToM（16个市场）和Low-ToM（16个市场）。稳健性检验使用25%分位阈值（将中间两组合并），结果一致。

关键设计特征

正反馈机制：价格是平均预测的递增函数，这使得正反馈LtFE中通常出现持续的泡沫和崩溃模式（如Hommes et al., 2005, 2008）
LtFE而非LtOE：选择LtFE（Learning-to-Forecast）而非LtOE（Learning-to-Optimize）的关键原因是LtFE直接引出价格信念，避免了"testing joint hypotheses"问题——即在LtOE中被试可能因无法计算最优交易量而偏离均衡，而非因预期偏误
预注册：第一波（Season 2021，Sessions 1-6）为预注册实验，第二波（Sessions 7-16）因审稿人建议增加样本量而追加

维度2：理论模型

理论基准

Rational Expectations Equilibrium (REE)：在所有被试均持有理性预期的情况下，均衡价格等于基本面价值 $p^f = 66$ 。此时价格序列为常数加白噪声。

正反馈机制的含义：由于 $p(t) = \frac{1}{1+r}(\bar{p}^e(t) + d) + \varepsilon_t$ ，当被试采用外推预期（adaptive或trend-following）时，预测中的偏差会被市场机制放大，形成持续偏离REE的泡沫和崩溃。

核心假说

Hypothesis 1（价格偏离）：Low-ToM市场的价格偏离REE更大（更高的RD和RAD）
Hypothesis 2（价格波动）：Low-ToM市场价格波动更大（更高的Price Dispersion和Amplitude）
Hypothesis 3（预期协调）：Low-ToM市场的预期协调更差（更高的Forecast Dispersion）
Hypothesis 4（预测策略）：Low-ToM组更多采用adaptive、trend-extrapolation和naive预期；High-ToM组更多采用fundamental预期

测量指标体系

市场层面（泡沫度量）：

Relative Deviation (RD)：各期价格偏离REE的百分比均值（衡量overpricing）
Relative Absolute Deviation (RAD)：各期价格偏离REE的绝对百分比均值（衡量mispricing）
Price Dispersion (PD)：价格的标准差
Amplitude (AMP)：最高价与最低价之差

个体层面（预期协调）：

Forecast Dispersion (FD)：每期所有6人预测的标准差

个体层面（预测策略分类）：
按Anufriev et al.（2019）的方法，对每个被试运行时间序列回归，判断其属于以下四类之一：

Adaptive expectations: $p^e_{i,t} = p^e_{i,t-1} + heta_i(p_{t-1} - p^e_{i,t-1}) + \varepsilon$
Trend-following expectations: $p^e_{i,t} = p_{t-1} + \gamma_i(p_{t-1} - p_{t-2}) + \varepsilon$
Naive expectations: $p^e_{i,t} = p_{t-1} + \varepsilon$
Fundamental forecasts: $p^e_{i,t} = p^f = 66$

回归模型

市场层面分析采用OLS回归：
$ $Y_k = \beta_0 + \beta_1 L_k + \beta_2 C_k + \varepsilon_k$ $

其中 $L_k$ 为Low-ToM虚拟变量（Low-ToM市场=1）， $C_k$ 为市场层面控制变量（CRT均值、numeracy test均值、性别比例等），标准误在session层面聚类。

收敛速度分析使用面板回归，以5期移动平均的预测标准差为因变量，"stage"（将50期分为10个阶段）为自变量，检验预期协调随时间改善的速度。

维度3：核心发现

Observation 1：价格泡沫（不支持Hypothesis 1）

Low-ToM组的平均RD为188%，High-ToM组为113%——Low-ToM组泡沫在经济意义上大约65%更大
但Wilcoxon rank-sum检验和OLS回归均显示两组差异在5%水平上不显著
Cohen's d = 0.46，属于中等效应量
在16个session中，约半数（sessions 3, 4, 6, 7, 11, 12, 13）Low-ToM组的泡沫反而更小
两个极端市场（Low-ToM组的Market 4和Market 9）拉高了Low-ToM组均值

Observation 2：价格波动性（不支持Hypothesis 2）

Low-ToM组的平均Price Dispersion为102，High-ToM组为53；Amplitude为341 vs. 169
差异在经济意义上约为73%-93%，Cohen's d = 0.76（中等效应量）
但rank-sum检验和OLS回归均不显著
组内异质性很大：例如sessions 3, 7, 12, 13中Low-ToM组波动反而更低

Observation 3：预期协调（不支持Hypothesis 3）

Low-ToM组平均Forecast Dispersion为45，High-ToM组为33——Low-ToM组约差117%
Cohen's d = 0.59，属于中等效应量
但统计检验不显著
收敛速度分析：两组均以约每阶段-1%的速度收敛至REE（stage变量显著为负），但Low-ToM x Stage交互项不显著，说明收敛速度无显著差异
预测标准差的峰值出现在第2期（Low-ToM组35.74，High-ToM组14.42——High-ToM组仅为Low-ToM组的一半），但之后两组趋势相似

Observation 4：预测策略（不支持Hypothesis 4）

参数方法（Parametric Approach）：

策略	Low-ToM	High-ToM	Fisher's exact p
Adaptive	11	13	0.828
Trend-following	52	44	0.312
Naive	14	13	1.000
Fundamental	0	4	0.121

两组在四种策略的采用比例上均无显著差异
31.25%的被试可被归入多种策略
Low-ToM组使用adaptive和trend-following策略的程度更大（ $\bar{ heta}_{Low}=0.95$ vs. $\bar{ heta}_{High}=0.78$ ； $\bar{\gamma}_{Low}=0.78$ vs. $\bar{\gamma}_{High}=0.61$ ），差异在5%水平显著

非参数方法（Non-Parametric Approach）：

每个被试均可被归入某一策略（无fundamental forecaster）
Low-ToM: 10 adaptive, 73 trend, 13 naive
High-ToM: 9 adaptive, 78 trend, 9 naive, 0 fundamental
Fisher's exact检验：策略分布无显著差异

控制变量效应

Numeracy test：在Low-ToM组内，较高cohort层级numeracy test得分与更大的价格泡沫和波动显著相关；在High-ToM组内无此效应
CRT：在Low-ToM组内，较高cohort层级CRT得分与较小泡沫相关（部分显著），但在加入更多控制变量后不再显著
性别：女性在eye gaze test上得分更高（与Baron-Cohen et al., 1997一致）；Low-ToM组中女性比例更低

维度4：变量概览

变量类型	变量名	含义
处理变量	Low-ToM Group dummy	ToM排名19-24（最低6人）vs. 1-6（最高6人）
因变量	RD (Relative Deviation)	价格偏离REE的百分比均值
因变量	RAD (Relative Absolute Deviation)	价格偏离REE的绝对百分比均值
因变量	Price Dispersion	价格标准差
因变量	Amplitude	最高价-最低价
因变量	Forecast Dispersion	每期6人预测的标准差
控制变量	CRT score	Frederick (2005) 认知反射测试得分
控制变量	Numeracy test	Weller et al. (2013) 数字素养量表得分
控制变量	Self-monitoring test	Snyder (1974) 自我监控量表得分
控制变量	Female dummy	性别（女=1）
控制变量	Age	年龄

维度5：局限性

样本：仅使用中国大学生被试，与使用金融专业人士的实验可能存在差异（Holzmeister et al., 2020; Weitzel et al., 2020）
统计检验力不足：尽管效应量中等（Cohen's d 0.46-0.76），样本量（每组16个市场）不足以达到80%统计检验力（需要1500+名被试）
ToM测量工具的局限：eye gaze test仅测量ToM的一个特定方面（从眼部照片推断情绪），可能不完全对应金融市场中所需的"reading the market"能力
组内异质性：即使在同一ToM组内，不同market之间的表现差异很大（如Low-ToM组内Market 4几乎无泡沫而Market 9泡沫巨大），说明ToM得分无法完全预测市场动态
正反馈LtFE的特殊性：结果可能不适用于其他市场机制（如LtOE或double auction资产市场）

维度6：与其他文献的关系

LtFE实验框架

Hommes_2005_CoordinationExpectations：LtFE框架的奠基性工作，本文直接沿用其6人正反馈设计
Hommes_2011_LearningExpectations：LtFE实验的方法论综述
Bao_2019_InterestRate_Expectations_Bubbles：作者之前使用LtFE研究利率政策对预期和泡沫的影响

维度7：可拓展的研究方向

使用金融专业人士被试：检验ToM对专业交易者市场动态的影响是否不同
替换ToM测量工具：使用其他ToM测量方法（如social stories task或interactive games）以检验结果的稳健性
增大样本量：基于本文效应量估计，设计有足够统计检验力的大规模实验
负反馈LtFE：在负反馈市场中检验ToM效应——负反馈市场中价格自然趋向均衡，ToM的作用可能不同
ToM的"双刃剑"效应：本文结论部分提到，高ToM被试可能彼此"碰撞"（collide）导致更大的价格波动，值得进一步研究ToM在市场中的非单调效应
结合Theory of Mind capacity与cognitive ability：参照Cognet et al.（2018）区分ToM capacity和cognitive ability，检验两者的交互效应

关键结论

尽管Theory of Mind能力的差异在经济意义上对市场表现有相当大的影响（Low-ToM组泡沫大65%、波动大73-93%、预期协调差117%），但这些差异在统计上均不显著。这一结果表明，即使所有市场参与者都擅长"reading the market"，仅凭ToM能力的提升并不足以确保预期协调和市场稳定——信念形成过程中的异质性（如不同的预测策略选择和策略使用程度）依然是决定市场动态的关键因素。