Adaptive Benchmarks Based on Stock and Market Performances in Repurchase Decisions

Jiao et al. (2016), SSRN Electronic Journal

摘要

Recently, reinforcement has been identiﬁed as an important driver of stock repurchasing decisions. We enrich the existing reinforcement model of repurchasing by an aspiration-based market benchmark. Reinforcement relative to an adaptive benchmark is a well-established model of behavior in psychology, but not yet investigated in ﬁnance. When choosing which stock to repurchase, investors’ sources of reinforcement are weighted averages of absolute returns and returns relative to the market from previous sales. The weights change according to market environments. We empirically identify the following crucial asymmetry that cannot be reconciled by simple reinforcement strategies, but is consistent with the model we propose: investors place more weight on market-relative returns when the market is performing well, and more weight on absolute returns when the market is performing badly. Psychologically, this is also consistent with the ‘ostrich eﬀect’. We conclude with a discussion of the implications for individual investors and private wealth managers.

以下是对这篇论文的详细中文总结：

一句话总结

本文提出一个自适应基准的强化学习模型，发现个人投资者在回购此前卖出的股票时，会根据市场环境动态调整对绝对收益和市场相对收益的权重——牛市中更看重相对市场的表现，熊市中更看重绝对收益。

研究问题

投资者在决定是否回购此前卖出的股票时，其强化学习的"基准"（benchmark）究竟是什么？是绝对收益，还是相对市场的收益？这个基准是否会随市场环境变化而动态调整？

核心贡献

理论贡献：在经典强化学习模型（Erev & Roth, 1998）基础上，引入自适应市场基准（adaptive market benchmark），提出投资者的强化来源是绝对收益与市场相对收益的加权平均，且权重随市场表现动态变化（ρ'> 0）。
实证贡献：利用个人投资者交易数据，发现一个简单强化学习模型无法解释的关键不对称性——在上涨市场中，正绝对收益但低于市场的股票反而不太可能被回购——这与自适应基准模型一致。

维度1：实验设计分析

注意：本文并非实验室实验，而是基于真实交易数据的实证研究。

数据来源

使用 Barber and Odean (2000) 的经典数据集（同 Strahilevitz et al., 2011 所用数据）
来自美国一家大型折扣券商的个人交易记录，覆盖 1991年1月至1996年12月
包含约 78,000 个活跃交易家庭的详细交易记录和持仓报表
66,465 个家庭在样本期内至少持有一个月普通股
市场价格、回报、成交量等数据来自 CRSP 数据库

实证策略时间线

界定回购事件：对1996年1月1日之前的每笔卖出，构建一个二元变量——该股票是否在一年内被同一家庭回购
生存分析：采用 Weibull 误差分布的参数化风险模型（hazard model），而非 Strahilevitz et al. (2011) 的非参数方法
引入市场环境：计算卖出前持有期间的 S&P 500 回报，区分上涨/下跌市场
六区域划分：根据（i）市场方向、（ii）股票绝对收益方向、（iii）股票相对市场收益方向，将样本分为6个区域
稳健性检验：用 CRSP 市值匹配组合替代 S&P 500 作为市场基准

维度2：理论模型

模型设定

基于 Erev and Roth (1998) 的强化学习框架：

投资者 i 在时期 t 对股票 S 有一个购买倾向 $q_{iS}^t$ ，更新规则为： $q_{iS}^{t+1} = q_{iS}^t + R_{iS}^{t+1}$
倾向通过 logistic 概率规则转化为购买概率： $p_{iS}^{t+1} = e^{\lambda q_{iS}^{t+1}} / \sum_{R \in S} e^{\lambda q_{iR}^{t+1}}$

两种极端视角

孤立视角（Isolated view）： $R_{iS}^{t+1} = \phi_S^t$ （仅看股票绝对收益）
市场视角（Market perspective）： $R_{iS}^{t+1} = \Delta_S^t = \phi_S^t - \overline{\phi}^t$ （看相对市场的收益）

核心假说——自适应基准模型

R_{iS}^{t+1} = \varrho(\overline{\phi}^t)\Delta_S^t + (1-\varrho(\overline{\phi}^t))\phi_S^t

权重 $\varrho(\overline{\phi}^t) \in (0,1)$ 是市场回报的递增函数（ $\varrho' > 0$ ）：

牛市时 $\varrho$ 较大 → 更看重市场相对收益
熊市时 $\varrho$ 较小 → 更看重绝对收益

心理学基础

与"鸵鸟效应"（ostrich effect）一致：人们在好消息环境下更愿意主动收集和处理市场信息，在坏消息环境下倾向忽略市场信息。

维度3：核心发现

发现1：市场方向调节强化效应（Table 1, Reg 1-2）

在下跌市场中，此前卖出的赢家被回购的可能性是其他股票的 2.581 倍
在上涨市场中，这一倍数降至仅 1.702 倍（2.581 × 1.472 × 0.448）
绝对赢家在熊市中更有吸引力，在牛市中吸引力下降

发现2：关键不对称性（Table 2）

上涨市场中，正绝对收益但低于市场的股票（Region 2）回购概率仅为基准的 0.878 倍（即低于1），反而不如负绝对收益的股票
这是简单强化学习模型无法解释的：按简单模型，正收益股票应该总是比负收益股票更可能被回购
下跌市场中，引入市场相对收益的区分效果不明显，正收益股票一致更可能被回购

发现3：相对收益的方向性效果（Figure 2）

Panel A：上涨市场中，正绝对收益但负市场相对收益的股票，hazard rate 甚至低于负绝对收益的股票
Panel B：正市场相对收益的股票在两种市场条件下都更可能被回购，但同等相对收益在下跌市场中的强化效果更强

稳健性

使用 CRSP 市值匹配组合替代 S&P 500 的结果一致（Table 1, Reg 5-6）。

维度4：变量概览

因变量（Y）

回购事件：二元变量，股票卖出后一年内是否被同一家庭回购（用于生存分析的 hazard rate）

核心解释变量（X）

变量	定义
Pos	=1 若此前卖出的绝对收益为正
Neg	=1 若此前卖出的绝对收益为负
SameD	=1 若股票收益方向与 S&P 500 同期收益方向相同
PosrelSP	=1 若股票绝对收益高于同期 S&P 500 收益
PosrelCap	=1 若股票绝对收益高于同期 CRSP 市值匹配组合收益
Pos × SameD / Neg × SameD	交互项

控制变量

持有期的倒数（inverse holding period）
相对交易量的对数（log relative trading volume）
卖出后不同时间窗口（5、10、21、42、63、126 交易日）的绝对收益
异常交易量

模型参数

Weibull 分布的形状参数 p（估计值约 0.43-0.47，< 1，说明回购概率随时间递减）

维度5：局限性

数据时期局限：样本仅覆盖 1991-1996 年，这段时间总体为牛市，下跌市场样本相对较少（约 88,872 vs 389,265）
因果识别不足：实证发现的不对称性与自适应基准模型"一致"，但无法排除其他解释（如注意力机制、参考点更新等）
缺乏直接机制检验：论文无法直接区分是鸵鸟效应（选择性注意）还是参考点适应（aspiration adaptation）驱动的结果
个体异质性有限：以家庭为单位分析，未深入探讨投资者特征（经验、财富、教育）对适应性基准的调节作用
仅研究回购决策：选择集明确是优势，但限制了对更广泛购买决策的推广
市场基准的选择：仅用了 S&P 500 和市值匹配组合，投资者实际使用的心理基准可能更多样

维度6：与其他文献的关系

直接对话

Strahilevitz_2011_Repurchase_Winners_Losers：本文直接扩展其发现，使用相同数据但引入市场环境的调节作用
Erev_Roth_1998_Reinforcement_Learning：本文的理论基础，经典强化学习模型
Jiao_2015_Experience_Investment_Decisions：实验证据表明强化学习影响回购倾向和信念

强化学习文献

Bush_Mosteller_1953_Stochastic_Learning：经典强化理论的源头
Camerer_Ho_1999_EWA_Learning：经验加权吸引力学习模型
Nevo_Erev_2012_Surprise_Change_Outcomes：广义强化学习
Erev_Haruvy_2013_Learning_Small_Decisions：强化学习综述

投资者行为文献

Barber_Odean_2000_Trading_Hazardous_Wealth：数据来源
Shefrin_Statman_1985_Disposition_Effect：处置效应
Odean_1998_Reluctant_Realize_Losses：损失厌恶与卖出决策
Kaustia_Knupfer_2008_IPO_Experience：IPO 中的强化学习行为

心理学与行为金融

Karlsson_2009_Ostrich_Effect：鸵鸟效应——选择性注意力的不对称性
Galai_Sade_2006_Ostrich_Effect_Liquidity：金融中的鸵鸟效应
Koszegi_Rabin_2006_Reference_Dependent：参考点依赖偏好
Rabin_Schrag_1999_Confirmatory_Bias：确认偏差
Brunnermeier_Parker_2005_Optimal_Expectations：最优预期理论

渴望水平与适应

Selten_1998_Aspiration_Adaptation：渴望水平适应理论
Bendor_2001_Aspiration_Reinforcement：基于渴望的强化学习
Dixon_2000_Keeping_Up_Joneses：动态市场基准的先驱模型

维度7：可拓展的研究方向

实验室实验验证：设计控制实验直接操纵市场环境（牛市/熊市）和股票收益，在实验室中检验自适应基准假说（作者在论文中也提及这一计划）
机制区分：设计实验区分鸵鸟效应（注意力分配）vs 参考点适应（aspiration updating）vs 确认偏差作为底层机制
个体异质性：研究投资经验、金融素养、风险偏好等如何调节自适应基准的权重函数 ρ
拓展到一般购买决策：将模型从回购（选择集明确）拓展到首次购买（选择集模糊）
信念测量：在实验中直接测量投资者对市场和个股的信念更新，检验是否与注意力分配假说一致
更丰富的市场环境：研究波动率、趋势持续时间等市场特征对基准权重的影响
专业投资者对比：检验机构投资者或专业交易员是否也表现出类似的自适应基准行为（参考 Chiang_2011_Investors_Learn_Experience 的发现——成熟投资者可能不同）

关键结论

投资者在回购决策中并非简单地基于绝对收益进行强化学习。他们的强化基准是自适应的——在牛市中更看重股票相对市场的表现（市场视角），在熊市中更看重股票的绝对表现（孤立视角）。这种不对称性与心理学中的"鸵鸟效应"一致：好的市场环境促使投资者主动关注市场信息，而坏的市场环境则使投资者回避市场比较、转向关注自身组合的绝对表现。这一发现对理解个人投资者的行为偏差和财富管理实践具有重要启示。

Jiao_2016_Adaptive_Benchmarks_Based_Stock