Havakhor_Rahman_2025_FinancialDataAccess_GamblingBehavior
Tech-Enabled Financial Data Access, Retail Investors, and Gambling-Like Behavior in the Stock Market
一句话总结
利用 2017 年 5 月 Yahoo! Finance API 突然关闭的准自然实验与配套在线 RCT 实验,证明类机构级金融数据 API 的可获得性会加剧散户的过度自信 (知识/精确度/控制三类幻觉),导致更多赌博型交易、更差投资回报与市场流动性恶化。
研究问题
- 散户对大规模、便捷的历史价格数据的可获得性 (financial data API) 是否会改变其交易行为与市场表现?
- 这种数据访问是通过什么心理机制 (过度自信的哪些维度) 影响散户决策?
- 类机构级数据民主化对散户投资绩效与市场流动性是改善还是损害?
核心贡献
- 首次研究金融数据 API 对散户行为的因果影响:区别于此前 SEC filings/会计信息的低频信息文献,关注高频价格数据通过 API 的传播;
- 互补的双实验设计:准自然实验提供市场层面集体效应证据,RCT 揭示个体层面的心理机制 (过度自信的三个维度),两者结论高度一致;
- 揭示"信息民主化的暗面":类机构数据获取能力反而加剧散户的行为偏差,挑战乐观信息技术叙事;
- 过度自信三维度的同时实验测量:通过前测-后测变化量直接量化 illusion of knowledge / precision / control;
- 政策含义:为金融科技监管、散户保护与数据访问平台设计提供实证依据。
维度1:实验设计分析
本文包含两个互补的实验:(1) 准自然实验(利用Yahoo! Finance API关闭事件)和 (2) 随机对照实验(在线实验室实验)。
实验一:准自然实验(Quasi-Natural Experiment)
背景与外生冲击
2017年5月16日,Yahoo! Finance API突然关闭。Yahoo! Finance API是当时最大的免费金融数据API,为散户投资者提供大量实时和历史价格数据的批量下载功能。关闭前,用户可通过ichart.finance.yahoo.com以编程方式批量下载历史价格数据(开盘价、收盘价、买卖价等)及少量基本面数据(EPS、营收、账面价值等)。关闭后,用户仍可在Yahoo! Finance网页手动查看数据,但无法再通过API进行大规模自动化下载。
这一突然关闭构成了一个准自然实验:外生地移除了散户投资者对大规模、高频率历史价格数据的便捷获取渠道。
实验任务详细流程
这不是一个传统意义上的"被试进入实验室"的实验,而是利用市场级别交易数据的观测性研究。
数据来源与时间窗口:
- 主样本期:2017年4月16日至6月15日(以API关闭日5月16日为中心的两个月窗口)
- 补充窗口:两周、四个月窗口
- 虚假检验窗口:2016年以5月16日为中心的两个月
- 数据来源:TAQ(Trade and Quote)数据库、Compustat、CRSP、Institutional Brokers' Estimate System、RavenPack、Thomson Reuters
- 样本量:169,430个公司-日观测值,涵盖3,945只股票
识别策略(DID设计):
利用客户效应(clientele effect)构建处理组与控制组:
- 处理组(Treatment):散户偏好股票(retail-favored stocks, RFS=1),即散户持股比例高于样本中位数的股票(1,952只)
- 控制组(Control):其他股票(RFS=0),散户持股比例低于中位数的股票(1,993只)
替代性处理组定义:
- Lottery-Like股票:同时满足低价格、高波动率、高偏度的股票(1,257只)
- Small-Cap股票:市值低于样本中位数的股票(1,973只)
核心回归模型(公式1):
其中 Ab\_Retail\_Vol 为异常散户交易量(实际交易量减去过去10周同一星期几的中位数),Post 为API关闭后的虚拟变量,RFS 为散户偏好股票指示变量,W_{it} 为公司日控制变量(收益率、收益率平方、新闻覆盖等)。
观测变量及测量方式:
- Retail_Vol:散户交易量/总流通股数 x 100。散户交易通过TAQ数据中的交易所代码"D"(场外交易)及价格改进(0.1-0.4美分)来识别,遵循Boehmer et al. (2021)方法
- Ab_Retail_Vol:异常散户交易量 = Retail_Vol 减去过去10周同一星期几的中位数
- CAR[i W, j W]:从第i周到第j周的累积异常收益(delisting-adjusted)
- AIM:Amihud非流动性指标
- Spread:每日买卖价差
其他实验设计要素
- 实验类型:准自然实验(利用外生事件的观测性研究)
- Treatment与Control:基于散户持股比例(RFS)、彩票型股票特征(Lottery_Like)、市值(Small_Cap)三种方式定义处理组
- 随机化策略:非随机化,依赖外生冲击的准随机性。通过以下方式验证识别假设:
- 平行趋势检验(Figure 2显示关闭前处理组和控制组趋势一致)
- 机构投资者安慰剂检验(Table 5显示机构交易量无显著变化)
- 虚假日期检验(Table 6使用2016年同期数据,无显著效果)
- 不同时间窗口稳健性检验
- 因果识别策略:DID(双重差分)
- 样本量:3,945只股票,169,430个公司-日观测值
- 激励机制:观测性研究,无激励设计
实验二:随机对照实验(Randomized Controlled Experiment)
实验任务详细流程
第一轮(Day 1):金融素养筛选与前测
- 招募:从Reddit的投资/交易相关子版块招募被试(r/investing, r/stocks, r/algotrading, r/fintech, r/finnhubAPI),同时鼓励参与者分享链接给其他日间交易者
- 筛选:被试完成金融素养问卷(4道关于复利、通胀、股票和债券的客观题)。答对不到一半的被试被淘汰并补偿$7
- 前测(Pretest):
- 知识幻觉前测:被试估计在同一券商中,投资技能优于自己的人的百分比,以及投资回报率估计与自己相似的人的百分比。变量构造为:-1 x 上述两项估计的平均值(值越高表示越过度自信)
- 精确度幻觉前测:被试给出当前失业率、一年后失业率、当前通胀率、一年后通胀率的上下界估计。测量为 -1 x 四个区间宽度的平均值(区间越窄表示越过度自信)
第二轮(Day 4,间隔3天以避免启动效应):投资交易游戏
-
随机分组:被试被随机分配到三个实验条件之一。每人被随机分配1、2或3的数字,对应分到处理组、控制组或安慰剂组:
- 控制组(Group A, n=90):
- 工具:单公司搜索功能(模拟Yahoo! Finance网页搜索,可查看单只股票的财务统计数据和历史数据)
- 即:只能一次查一家公司,看到该公司的基本信息
- 安慰剂组(Group B, n=92):
- 工具:单公司搜索功能 + 过去52周表现最好的5只股票列表
- 即:比控制组多了一个"最佳表现股票"榜单,但没有批量数据下载
- 处理组(Group C, n=100):
- 工具:单公司搜索功能 + 过去52周最佳5只股票列表 + 可下载包含全部100只股票历史价格数据的CSV文件(master file)
- 即:模拟API功能,被试可以批量获取所有股票的历史价格数据
- 控制组(Group A, n=90):
-
投资标的:100只真实的公开交易股票,但公司名称、代码等可识别信息被隐藏,替换为"Company 1"到"Company 100"的假名(100只中95只随机选择,5只为过去52周表现最好的股票)。所有股票的财务统计、历史数据和最佳股票页面均基于Yahoo! Finance的真实数据
-
投资任务流程:
- 阶段1(20分钟):被试浏览信息、选择投资标的。可使用分配给自己的工具来研究这100只股票
- 阶段2(10分钟):被试将固定预算$3,000分配到所选股票上,目标是在一个月投资期内最大化投资组合收益。未分配的预算视为现金持有
-
后测(Posttest):
- 知识幻觉后测:被试估计在交易游戏中其他参与者投资技能优于自己的百分比,以及投资回报率与自己相似的百分比
- 精确度幻觉后测:被试给出从100只股票中随机抽取的2只股票的未来价格和收益率的上下界估计
- 控制幻觉:被试回答愿意转向被动投资方式(指数基金、robo-advisor等)的意愿(1-5 Likert量表)。构造为 -1 x 意愿分数(值越高表示越觉得自己能控制投资结果)
- 人口统计学问卷:性别、年龄、婚姻状况、子女数、职业类别、教育水平、收入、投资经验、每日交易时间和金额、主观与客观金融素养
-
报酬支付:
- 完成第二轮的固定报酬:$7
- 绩效报酬:根据投资组合30天后的真实回报排名
- 前10%:额外$20
- 前11%-20%:额外$10
- 投资组合回报基于100只标的的真实市场表现计算
被试看到的界面
论文提到Online Appendix J包含各实验组着陆页的截图。基于文本描述:
- 所有组:均有单公司搜索功能页面,输入公司编号后可查看该公司的财务统计和历史数据
- 安慰剂组和处理组:额外看到"过去52周最佳5只表现股票"的页面
- 仅处理组:额外有一个按钮,可下载包含所有100只股票历史价格数据的CSV平面文件
其他实验设计要素
- 实验类型:在线随机对照实验(Online RCT)
- Treatment与Control:三组设计(控制组/安慰剂组/处理组),核心比较为处理组 vs 控制组
- 随机化策略:个体层面随机分配,每人随机分配数字1/2/3对应三组
- 观测变量:
- Amount:投资金额占预算比例 = ($3,000 - 剩余现金) / $3,000
- Return:30天后投资组合的总美元回报 / $3,000
- Delta Illusion of knowledge:后测 - 前测的知识幻觉分数变化
- Delta Illusion of precision:后测 - 前测的精确度幻觉分数变化
- Illusion of control:-1 x 转向被动投资的意愿(仅后测)
- 因果识别:随机化实验
- 样本量:最终合格样本282人(处理组100人、安慰剂组92人、控制组90人)。平均年龄27-28岁,154人为男性
- 被试特征:有日间交易经验(3年以上),每天至少交易30分钟,大多数每日交易金额低于$500
- 激励机制:固定报酬$7 + 基于真实回报排名的绩效奖金(最高$20)
实验亮点
- 两个实验互补:准自然实验提供市场层面的大规模证据,RCT揭示个体层面的心理机制(过度自信),两者结论高度一致
- 外生性强:Yahoo! Finance API的突然关闭是意料之外的,构成了近乎理想的自然实验
- 客户效应识别策略巧妙:利用散户偏好的股票特征(高散户持股、彩票型、小市值)定义处理组,不依赖投资者层面数据
- RCT精心模拟现实:三组设计模拟了Yahoo! Finance在有无API情况下的信息获取方式,包含安慰剂组排除"最佳股票列表"效应
- 前测-后测设计:可直接测量过度自信的变化量(Delta),而非仅测量水平
- 使用真实股票数据和真实回报计算绩效,增强外部效度
- 多种稳健性检验:平行趋势、安慰剂检验、虚假日期检验、替代处理组定义、不同时间窗口
实验局限
- 准自然实验无法观测投资者层面数据:只能推断股票层面的散户行为变化,无法直接追踪个人
- RCT的外部效度:Reddit招募的样本可能偏向年轻、技术熟练的交易者,不完全代表所有散户
- 散户交易识别方法的局限:基于TAQ的价格改进分类方法可能遗漏部分散户交易
- API用户的选择性:使用API的散户可能本身就有更强的技术能力和行为偏差,但作者认为这不影响DID估计
- 四个月窗口效果消失:散户逐渐找到替代API(如yfinance),说明API关闭的长期效果有限
- RCT中投资金额较小($3,000虚拟预算),可能无法完全模拟真实投资决策的风险感知
维度2:理论模型
经典理论基准
- 散户投资者的信息劣势理论:散户被称为"噪声交易者",缺乏信息获取渠道,交易偏好受行为偏差驱动(Barber and Odean 2000, 2002)
- 反馈交易理论:散户倾向于根据过去价格趋势交易(feedback trading),忽略基本面信息(Blankespoor et al. 2019, Da et al. 2021)
- 彩票型偏好理论:散户偏好低价、高波动、高偏度股票,类似赌博行为(Kumar 2009, Dorn et al. 2015, Gao and Lin 2015)
行为偏差模型的形式化表达
本文的理论框架基于过度自信的三个维度(Barber and Odean 2013, Moore and Healy 2008):
1. 知识幻觉(Illusion of Knowledge / Over-placement Bias):
其中 \hat{p}_{\text{skill}} 为被试估计的技能优于自己的他人比例,\hat{p}_{\text{return}} 为回报率与自己相似的他人比例。值越高表示越认为自己优于他人。
2. 精确度幻觉(Illusion of Precision / Over-precision / Miscalibration):
其中 \overline{x}_i 和 \underline{x}_i 分别为被试对第 i 个宏观经济/股票指标的上界和下界估计。区间越窄(值越高),表示对预测准确性的过度确信。
3. 控制幻觉(Illusion of Control):
值越高表示越不愿转向被动投资,即越相信自己能控制投资结果。
过度自信变化量:
核心DID回归模型:
交易信息性回归(Fama-MacBeth):
模型关键假设
- 客户效应假设:不同投资者偏好交易不同类型的股票,散户偏好的股票受API关闭影响更大
- 平行趋势假设:关闭前,处理组和控制组的散户交易量趋势平行
- 数据导致过度自信假设:大量历史价格数据的获取会加剧散户的三类过度自信(知识、精确度、控制),进而导致过度交易和更差的投资绩效
- 散户以反馈交易为主:散户主要依赖价格趋势而非基本面信息进行交易
可检验预测
- API关闭后,散户偏好股票的散户交易量显著下降(H1:交易量效应)
- API关闭后,剩余散户交易的信息性提高(H2:交易质量效应)
- API关闭后,散户偏好股票的市场流动性下降(H3:流动性效应)
- 获得API-like数据的个体过度自信水平上升(H4:过度自信机制)
- 获得API-like数据的个体投资更多、回报更低(H5:交易行为效应)
Structural Estimation
本文不涉及结构估计方法。
维度3:核心发现
准自然实验主要发现
1. 散户交易量下降(Table 4)
- DID系数(Post x RFS):-0.007至-0.008(两周和两个月窗口),在1%水平显著
- 经济意义:散户偏好股票的交易量在API关闭后一个月内下降8.6%-10.5%
- 具体:Retail_Vol从0.113降至0.102,下降幅度 = (0.102-0.113)/0.113 = 9.7%
- 四个月窗口:效果变小且不显著(系数-0.002),说明散户逐渐找到替代数据源
- 替代处理组(Lottery_Like):系数-0.009至-0.014
- 替代处理组(Small_Cap):系数-0.006至-0.009
2. 散户交易质量改善(Table 7)
- API关闭后,散户买入交易对未来一周收益的预测系数从0.308(不显著)上升至1.586**
- 散户卖出交易的负向预测性增强:从-2.287变为-2.950
- DID比较:处理组散户买入的预测系数变化(post-pre)= 16.848***,远大于控制组
- 解释:API移除后,低质量的噪声交易减少,剩余交易的平均信息性提高
3. 市场流动性恶化(Table 8)
- AIM(非流动性)增加:Post x RFS系数 = 0.009***(RFS代理),0.013***(Lottery_Like),0.009***(Small_Cap)
- Spread(买卖价差)增加:Post x RFS系数 = 0.026***,0.040***,0.032***
- 经济意义:AIM增加12.3%-17.8%(即5.1%-7.9%的价差变化),流动性显著恶化
4. 安慰剂检验(Table 5, Table 6)
- 机构交易量无显著变化(系数0.000-0.002,均不显著)
- 2016年虚假日期检验无显著效果(系数-0.000至0.001,均不显著)
随机对照实验主要发现
5. 投资金额与回报(Table 10)
- 处理组投资金额更高:Experiment_Treat系数 = 0.058***(p<0.01)
- 处理组投资回报更低:Experiment_Treat系数 = -0.037***(p<0.01),即回报率低3.7个百分点
- 安慰剂组无显著效果:Experiment_Placebo系数 = 0.003(金额)和0.002(回报),均不显著
6. 过度自信机制(Table 11)
- 知识幻觉变化:Experiment_Treat系数 = 0.199***(p<0.01),安慰剂组-0.092(不显著)
- 精确度幻觉变化:Experiment_Treat系数 = 0.637***(p<0.01),安慰剂组0.102(不显著)
- 控制幻觉:Experiment_Treat系数 = 1.181***(p<0.01),安慰剂组0.010(不显著)
- 结论:API-like数据访问显著提高了所有三个维度的过度自信,安慰剂组无此效应
稳健性检验
- 替代散户偏好代理变量(Lottery_Like, Small_Cap, 各子成分):结果一致
- 不同时间窗口(两周、两个月、四个月):短窗口效果最强,长窗口逐渐消失
- 买卖分开分析(Online Table G1):买入和卖出交易均下降
- 匹配样本(Online Table G3):控制基本面变量后结果一致
- 零售买卖订单失衡检验(Online Table G4)
- 使用散户持股中间20百分位作为排除带(Online Table G2)
与其他研究的一致性/差异
- 一致:与Barber and Odean (2002)关于在线交易导致过度交易的发现一致,但本文关注的是信息获取成本降低而非交易成本降低
- 一致:与Gao and Huang (2020)、Farrell et al. (2022)关于信息技术有利于散户的发现形成对照——本文发现API-enabled的价格数据反而加剧了行为偏差
- 差异:与信息民主化文献的乐观预期不同,本文发现数据获取的便利化可能损害散户利益
- 一致:与Blankespoor et al. (2019)关于散户忽视基本面、偏好价格信息的发现一致
维度6:与其他文献的关系
领域位置
本文位于金融科技(FinTech)与行为金融学的交叉领域,具体聚焦于:
- 信息技术对散户投资者行为的影响
- 金融数据API(应用程序编程接口)作为信息传播技术的特殊角色
- 散户投资者的赌博型交易行为与过度自信
与哪些经典论文对话
- Barber and Odean (2000, 2001, 2002):散户过度交易、在线交易的负面效应、性别与过度自信
- Kumar (2009):散户的赌博型投资行为
- Dorn et al. (2015), Gao and Lin (2015):彩票与股市交易的替代关系
- Gao and Huang (2020):信息技术对市场的积极影响(EDGAR系统)——本文提供了信息技术可能有负面效果的对照证据
- Farrell et al. (2022):电子数据获取与散户交易的信息性
- Blankespoor et al. (2019):散户为何忽视会计信息
- Grinblatt and Keloharju (2009):感觉寻求、过度自信与交易活动
- Moore and Healy (2008):过度自信的三种类型(over-placement, over-precision, over-estimation)
- Boehmer et al. (2021):利用TAQ数据识别散户交易的方法
- Da et al. (2021):散户的外推偏差
新的知识贡献
- 首次研究金融数据API对散户行为的影响:区别于此前文献关注的低频基本面信息(如SEC filings、会计信息),本文关注高频、大量、动态的价格数据通过API的传播
- 揭示信息民主化的"暗面":虽然API为散户提供了类机构级别的数据获取能力,但反而加剧了散户的行为偏差,导致更多赌博型交易和更差的投资绩效
- 提供过度自信三维度的直接实验证据:通过RCT直接测量API-like数据访问如何改变知识幻觉、精确度幻觉和控制幻觉
- 方法论贡献:准自然实验(市场层面集体效应)与RCT(个体层面机制)的互补设计
- 政策含义:为SEC关于金融科技监管和散户投资者教育提供了实证依据,强调了在技术民主化过程中关注行为风险的重要性
维度4:变量概览
准自然实验关键变量:
- 自变量:Post (API 关闭后虚拟变量)、RFS (散户偏好股票,1=散户持股比例高于中位数)、Lottery_Like (低价/高波动/高偏度)、Small_Cap (小市值)
- 因变量:
- Retail_Vol:散户交易量/总流通股数 × 100 (Boehmer et al. 2021 的 TAQ 价格改进识别法)
- Ab_Retail_Vol:异常散户交易量 (减去过去 10 周同星期几中位数)
- CAR[i W, j W]:累积异常收益 (delisting-adjusted)
- AIM:Amihud 非流动性指标
- Spread:每日买卖价差
- 控制变量:日固定效应、公司固定效应、收益率、收益率平方、新闻覆盖等
RCT 关键变量:
- 自变量:Experiment_Treat (处理组,可批量下载 100 股 CSV)、Experiment_Placebo (安慰剂组,仅看最佳 5 股榜单)
- 因变量:
- Amount = ($3,000 - 剩余现金) / $3,000
- Return:30 天后投资组合美元回报 / $3,000
- Δ Illusion of Knowledge = 后测 - 前测;测量 = -1 × avg(p̂_skill, p̂_return)
- Δ Illusion of Precision;测量 = -1 × avg(上界 - 下界)
- Illusion of Control = -1 × 转向被动投资意愿 (1-5 Likert)
- 控制变量:人口统计 (性别、年龄、婚姻、子女、职业、教育、收入)、投资经验、主观/客观金融素养
样本量:
- 准自然实验:3,945 只股票、169,430 公司-日观测
- RCT:282 名合格被试 (处理组 100 / 安慰剂组 92 / 控制组 90);平均年龄 27-28 岁,男性 154 人;招募自 Reddit 投资交易子版块
维度5:局限性
- 准自然实验无投资者层面数据:仅能从股票层面集体行为推断散户变化,无法追踪个体;
- 散户交易识别方法依赖 TAQ 价格改进:可能遗漏部分散户交易,存在分类误差;
- API 用户的选择性偏差:使用 API 的散户可能本就有更强技术能力与行为偏差;
- 长期效果消失:四个月窗口效果不显著 (系数 -0.002),散户找到 yfinance 等替代 API;
- RCT 外部效度受限:Reddit 招募样本偏向年轻、技术熟练交易者;
- RCT 投资金额较小:$3,000 虚拟预算难以模拟真实风险感知;
- 过度自信测量的自报性:知识/精确度/控制幻觉皆基于自报问卷,存在心理测量偏差;
- 未区分 API 数据质量:未检验数据精度、更新频率等维度差异是否调节效应;
- 缺乏长期投资绩效追踪:30 天回报窗口无法捕捉学习与适应过程;
- 未检验机构作为对照组:机构投资者使用同一 API 的反应未做正式比较 (仅作为安慰剂)。
维度7:可拓展的研究方向
- 不同金融数据类型的差异化效应:比较价格数据、基本面数据、ESG 数据、另类数据 API 对散户行为的不同影响;
- AI 辅助决策工具:在 API 之上叠加 LLM 投顾、机器人投顾等工具,研究 AI 中介是否能缓解过度自信;
- 长期学习与适应:追踪散户多年交易数据,检验 API 关闭/开放冲击的长期行为调整;
- 跨国比较:在监管/市场结构差异的国家 (中国、印度、欧洲) 重复实验;
- 数据可视化设计的因果实验:操纵 API 返回数据的呈现方式 (图表 vs. 表格、原始 vs. 加工),量化呈现方式对过度自信的影响;
- 社交交易平台:将 API 与社交功能 (eToro、富途) 结合,研究社交信息与数据访问的交互效应;
- 实时数据 vs. 延迟数据:检验数据新鲜度 (实时/15 分钟延迟/日终) 对散户行为的边际影响;
- 监管政策实验:模拟 SEC 对金融数据访问限制 (如要求免责声明、强制金融素养测试) 的效果;
- 结合 EEG/眼动:用神经测量手段验证 API 使用时的认知投入与决策过程;
- 机构对 API 关闭的反应:扩展样本至小型机构、对冲基金,研究他们对替代数据的获取行为。
关键结论
- API 关闭显著降低散户交易量:散户偏好股票交易量在 API 关闭后下降 8.6%-10.5%,效应集中在短期 (两个月内);
- 剩余散户交易质量改善:API 关闭后散户买入对未来收益的预测系数从 0.308 (不显著) 升至 1.586**,说明噪声交易减少;
- 市场流动性恶化:AIM 增加 12.3%-17.8%,Spread 增加 5.1%-7.9%,散户充当了流动性提供者;
- 机制为过度自信加剧:RCT 中处理组三类过度自信 (知识/精确度/控制) 全部显著上升,安慰剂组无效应;
- 行为后果:处理组投资金额提高 5.8%、回报降低 3.7 个百分点;
- 政策启示:金融数据 API 民主化是双刃剑——提升技术可达性的同时可能加剧赌博型交易,监管设计需考虑行为风险;
- 方法论启示:准自然实验 + RCT 的组合是因果推断与机制识别的有力范式。