GagnonBartsch_HeterogeneousTastes_SocialMisLearning

Authors: Tristan Gagnon-Bartsch (University of Iowa), Benjamin Bushong (Michigan State)
Date: July 2024
JEL: C91, D91, D84

一句话总结

当他人的行为同时反映其私有信息和异质偏好(heterogeneous tastes)时，观察者会因为对他人偏好的"自我中心式"错误感知(egocentric misperceptions)而系统性地误学习——对自己也会做的行为过度反应、对自己不会做的行为反应不足，且简单提供他人偏好信息无法消除这种偏差。

研究问题

当他人的行动既受私有信息驱动又受其特有偏好(idiosyncratic tastes)驱动时，观察者能否在贝叶斯框架下正确分离这两种信号源进行社会学习(social learning)？
若观察者对他人偏好分布持有错误信念（特别是"虚假共识效应/false-consensus effect"——高估他人与自己偏好相似的程度），这种错误如何在结构上扭曲社会推断？会产生过度反应还是不足反应？
提供关于他人偏好的额外信息（如商家评分）能否消除由错误偏好感知引起的社会学习偏差？

核心贡献

理论贡献： 构建了一个简洁框架，将异质偏好下的社会学习偏差归因于对"策略类型分布(strategy type distribution)"的错误感知，而非贝叶斯更新规则本身的错误。证明三种策略类型(SIA/SD/SIR)的人口比例是理性贝叶斯更新的充分统计量(sufficient statistic)。
方法贡献： 首次在自然偏好异质性环境（七家美国常见商家的礼品卡）中进行序贯社会学习实验(field-in-the-lab)，并同时引出信念和选择，可在个体内(within-subject)识别投射偏差。
实证贡献： 提出并验证了"过度反应/不足反应"的新解释——观察者的过/欠推断不是源自概率推理错误（如base-rate neglect），而是源自对他人策略类型分布的错误感知。
政策启示： 信息干预（直接告知他人偏好）不足以纠正社会误学习，对推荐系统、政策传播、消费者评价系统等领域设计有启示。

维度1：实验设计分析

1. 核心研究问题

当人们的偏好(tastes)存在异质性时，观察者如何从他人的行为中学习？对他人偏好的错误认知是否会系统性地扭曲社会学习(social learning)过程？

核心张力：他人的行为既反映了其私有信息(private information)，也反映了其特有偏好(idiosyncratic tastes)。正确的推断要求观察者恰当地区分这两种因素，而对他人偏好的错误感知——特别是自我中心的投射偏差(projection bias)——会导致系统性的误学习。

2. 理论模型

2.1 基本设定

模型考虑一个具有异质偏好的观察学习(observational learning)环境：

参与者： 一个知情的"行动者"(Player 1) 和一个"观察者"(Player 2)
行动空间： 二元行动 $a \in \{A, R\}$ ，其中 $A$ = 接受礼品卡， $R$ = 拒绝(选择现金奖励 $x$ )
状态空间： 礼品卡名义价值 $\omega \in \{h, l\}$ ， $h > l$ ，两种状态等概率出现
决策问题： 以 $(x, k)$ 标记，其中 $x$ 为现金金额， $k$ 为商家

2.2 偏好结构

行动者对商家 $k$ 在状态 $\omega$ 下的礼品卡估值记为 $v_k(\omega)$
估值单调性： $v_k(h) > v_k(l)$ （高价值状态下估值更高）
礼品卡估值弱劣于面值： $v_k(\omega) \le \omega$
关键点：不同参与者对同一商家可能有不同估值，这是异质偏好的来源

2.3 信息结构与决策规则

行动者收到与状态相关的二元信号 $s \in \{h, l\}$ ，精度 $\phi > 1/2$ （实验中 $\phi = 3/4$ ）
信号对称： $\Pr(s = z | \omega = z) = \phi$
信念更新： $\mu(h) = \phi$ ， $\mu(l) = 1 - \phi$
决策规则： 行动者选择礼品卡当且仅当 $\mu(s)v_k(h) + [1 - \mu(s)]v_k(l) > x$

2.4 三种策略类型

给定决策问题 $(x, k)$ ，行动者的行为可归纳为三种策略类型(strategy types)：

信号无关接受型 (SIA, Signal-Independent Accept)： 无论信号如何都选礼品卡
信号无关拒绝型 (SIR, Signal-Independent Reject)： 无论信号如何都选现金
信号依赖型 (SD, Signal-Dependent)： 仅当收到好信号 $s=h$ 时选礼品卡

关键洞见：这三种类型的人口比例是贝叶斯更新的充分统计量。

2.5 观察者的贝叶斯更新

观察者看到行动者的选择 $a$ 后，更新其对行动者收到好信号 $s=h$ 的概率的信念，记为 $\pi_{x,k}(a)$ 。

设观察者认为 SIA 比例为 $p_{x,k}$ ，SD 比例为 $q_{x,k}$ ，SIR 比例为 $1 - p_{x,k} - q_{x,k}$ ，则：

\pi_{x,k}(A) = \frac{p_{x,k} + q_{x,k}}{2p_{x,k} + q_{x,k}}, \quad \pi_{x,k}(R) = \frac{1 - p_{x,k} - q_{x,k}}{2(1 - p_{x,k}) - q_{x,k}}

这一公式的重要含义：观察者无需了解他人偏好的全部细节，只需知道策略类型的分布即可进行理性推断。

2.6 过度反应与不足反应的度量

引入 Grether (1980) / Benjamin (2019) 框架，用对数优势比(log-odds)衡量偏离程度：

\ln\left(\frac{\pi_{x,k}(A)}{1-\pi_{x,k}(A)}\right) = c_A \cdot \ln\left(\frac{\bar{p}_{x,k}+\bar{q}_{x,k}}{\bar{p}_{x,k}}\right)

\ln\left(\frac{\pi_{x,k}(R)}{1-\pi_{x,k}(R)}\right) = c_R \cdot \ln\left(\frac{1-\bar{p}_{x,k}-\bar{q}_{x,k}}{1-\bar{p}_{x,k}}\right)

$c_a > 1$ ：过度反应(over-reaction)——更新过度
$c_a < 1$ ：不足反应(under-reaction)——更新不足
$c_a = 1$ ：理性贝叶斯基准

2.7 命题1：错误信念导致的推断偏差

Proposition 1 指出，若观察者对策略类型分布持有不准确的信念( $p_{x,k}$ 和 $q_{x,k}$ 偏离真实比例 $\bar{p}_{x,k}$ 和 $\bar{q}_{x,k}$ )：

看到行动 $A$ 时：若 $\frac{q_{x,k}}{p_{x,k}} > \frac{\bar{q}_{x,k}}{\bar{p}_{x,k}}$ ，则表现为过度反应
看到行动 $R$ 时：若 $\frac{q_{x,k}}{1-p_{x,k}} > \frac{\bar{q}_{x,k}}{1-\bar{p}_{x,k}}$ ，则表现为过度反应

2.8 投射偏差(Projection Bias)模型

将观察者对类型分布的感知建模为依赖于自身类型 $\tau \in \{0, 1, 2\}$ （对应 SIR、SD、SIA）：

核心假设：人们高估与自己类型相似的人的比例
- $p_{x,k}(2) > \bar{p}_{x,k}$ ， $q_{x,k}(1) > \bar{q}_{x,k}$
- 感知的类型接近程度影响估计：例如 SD 类型认为 SIA 比 SIR 更常见， $p_{x,k}(1) > p_{x,k}(0)$

推论1 (Corollary 1)： 在投射偏差下，当观察到拒绝行动 $R$ 时，SD 类型比 SIR 类型表现出更大程度的过度反应——因为 SD 类型同时高估了 SD 和 SIA 的比例，低估了 SIR 的比例。

2.9 加入评分信息的扩展（实验2）

在实验2中，观察者额外看到行动者对商家的主观评分 $r \in \{1,2,3,4\}$ 。

理性预测：无论行动 $a = A$ 还是 $a = R$ ， $\pi_{x,k}(a|r)$ 都应随 $r$ 递减
直觉：评分高的人更喜欢该商家，其拒绝行为更强烈地表明收到了坏信号

3. 实验设计与主要发现

3.1 实验设计

平台： Prolific，共455名参与者（实验1: n=229，实验2: n=226）
三阶段设计：
- 阶段1（问卷）： 收集对7家美国企业（AMC、Amazon、Chick-fil-A、Home Depot、Old Navy、PetSmart、Starbucks）的偏好评分和对他人评分的预测
- 阶段2（行动者）： 在礼品卡和现金（$30/$40/$50）之间做选择，面临关于礼品卡价值（$20或$100）的不确定性和二元信号
- 阶段3（观察者）： 观察他人的选择，推断其收到好信号的概率，并自行选择
实验2差异： 观察者额外看到行动者的主观评分

3.2 四项核心发现

发现1：社会学习的基本比较静态成立

观察者正确推断：看到选礼品卡 $\to$ 认为好信号概率更高
信念响应现金金额变化： $x$ 越大，选卡越能说明收到好信号
实验2中观察者正确地考虑了行动者的评分信息（至少对 $a=R$ 的情况）

发现2：系统性偏离理性基准

看到接受(a=A)： 显著不足反应（ $c_A \approx 0.36$ - $0.47$ ）
看到拒绝(a=R)： 大多数商家显著过度反应（ $c_R \approx 1.27$ - $1.67$ ，Amazon除外为0.71）
这意味着：参与者对高信息量行为推断不足，对低信息量行为推断过度

发现3：推断依赖于观察者自身偏好（投射偏差证据）

个体固定效应模型（Table 5）：控制个体异质性后，SD 类型的观察者比 SIR 类型推断更多
隐含信念反推：SIR 类型认为自身类型占31%、SD占53%、SIA占16%；SD 类型认为 SIR 占22%、SD占62%、SIA占16%——都高估了自身类型的比例

发现4：信息干预效果有限

实验2提供行动者评分后，总体推断准确度并未改善，甚至略有恶化
观察者对评分信息的利用不足，低估了高评分行为中蕴含的信息量

4. 评价与启示

贡献

理论贡献： 构建了简洁的框架，将异质偏好下的社会学习偏差追溯到对策略类型分布的错误感知，而非贝叶斯更新规则本身的错误。这与 Bohren & Hauser (2021)、Frick et al. (2020) 等模型误设(model misspecification)文献互补
实验贡献： 首次在具有自然偏好异质性的环境中研究社会学习实验，同时收集信念和选择数据
方法贡献： 利用多商家设计实现个体内(within-subject)策略类型变化，从而识别投射偏差

局限

仅考察二人序贯学习，未涉及长序列信息级联(information cascade)
投射偏差的深层心理机制（认知还是动机性）未做区分
实验2的信息干预形式单一，不能排除其他类型的去偏差干预可能有效
样本限于美国在线参与者，外部有效性有待验证

对信念与行为研究的启示

社会学习中偏好异质性是一阶摩擦(first-order friction)，不可忽视
"看到别人做了什么"并不等于"理解别人为什么这样做"——偏好投射使得信息提取失真
信息干预（如告知他人特征）可能不足以纠正误学习，需要更深层次的去偏差机制
对社会网络设计的政策含义：同质小网络可能优于异质大网络，因为人们无法正确处理异质偏好

关键引用

Banerjee (1992), Bikhchandani et al. (1992) -- 经典社会学习/信息级联模型
Bohren & Hauser (2021) -- 异质误设模型下的学习
Frick et al. (2020) -- 对他人的误解与社会学习的脆弱性
Gagnon-Bartsch & Rosato (2023) -- 品味投射与观察学习中的质量误推断
Augenblick et al. (2023) -- 弱信号过度推断与强信号不足推断
Ross et al. (1977), Krueger & Clement (1994) -- 虚假共识效应

维度2：理论模型

详见维度1.2 节理论模型。核心模型要点：

贝叶斯基准： 三种策略类型(SIA/SD/SIR)的真实人口比例 $(\bar{p}, \bar{q}, 1-\bar{p}-\bar{q})$ 是理性更新的充分统计量
偏差来源： 投射偏差使观察者高估自己类型的人口比例
可识别预测： SD 类型在自己也采用 SD 策略的决策问题中过度更新；SIR 类型在自己采用 SIR 策略的决策问题中不足更新

维度3：核心发现

详见维度1.3.2 节四项核心发现。要点：

基础合理性： 观察者掌握社会学习的基本比较静态——选卡 → 推断好信号；现金金额 $x$ 越大 → 选卡的信息含量越强
系统性偏离： 看到接受(a=A)时 $c_A \approx 0.36$ - $0.47$ （不足反应），看到拒绝(a=R)时 $c_R \approx 1.27$ - $1.67$ （过度反应）
投射偏差证据： 个体固定效应回归显示，控制个体异质性后，自身策略类型显著影响推断方向；隐含信念表明各类型都高估了自身类型的人口比例（约高估10-20个百分点）
干预无效： 实验2提供商家评分后，整体推断准确度未改善

维度4：变量概览

变量类别	变量名	取值/操作化
状态	$\omega$	$\{20, 100\}$ 美元，先验等概率
信号	$s$	$\{l, h\}$ ，精度 $\phi = 3/4$
决策问题	$(x, k)$	$x \in \{30, 40, 50\}$ 美元； $k \in$ 7家商家
主观偏好	rating	4级 Likert 量表（negative → strongly positive）
行动	$a$	$\{A=$ 接受礼品卡, $R=$ 拒绝/选现金 $\}$
策略类型	$\tau$	SIA(2) / SD(1) / SIR(0)
信念	$\pi_{x,k}(a)$	观察者对行动者收到 $s=h$ 的后验概率
反应度量	$c_A, c_R$	对数优势比拟合系数（>1 过度，<1 不足）
实验2附加	$r$	行动者对商家的主观评分（4级）

激励机制：选择阶段每个决策有10%概率被随机选中实际执行（gift card or cash）；信念引出阶段使用 binarized scoring rule 激励真实陈述。

维度5：局限性

结构性局限： 仅二人序贯学习，未涉及长链信息级联(information cascade)，无法直接外推到长序列社会学习场景
机制识别局限： 无法区分投射偏差的深层机制——是认知性的(cognitive shortcut)还是动机性的(motivated reasoning)
干预设计局限： 实验2只测试一种干预形式（提供主观评分），不能排除其他形式的去偏差干预（如反复反馈、显式概率训练）有效
外部有效性： 样本限于美国 Prolific 在线参与者；偏好集中于"消费品商家"，未在金融、政治、信息品等场景验证
结构估计局限： 论文以归约式实证(reduced-form)为主，未对投射偏差参数进行结构估计，难以与其他偏差模型直接比较强度
支付规模局限： 礼品卡价值($20/$100)和现金奖金($30-50)虽真实但金额有限，可能低估了高 stakes 情境下的偏差程度

维度6：与其他文献的关系

与社会学习经典文献：

经典模型 Banerjee (1992)、Bikhchandani et al. (1992) 假设共同偏好(common preferences)，本文证明放宽这一假设后会产生一阶摩擦。
Anderson & Holt (1997) 创立的实验范式同样依赖诱导偏好，本文采用自然异质偏好(naturalistic tastes)。

与误设社会学习(misspecified social learning)文献：

Bohren & Hauser (2021)、Frick et al. (2020) 从理论上分析对策略分布的错误感知如何引发误学习；本文提供首个对应的实验证据。
Gagnon-Bartsch & Rosato (2023) 在拍卖中证明品味投射会导致质量误推断，本文将其拓展到序贯观察学习。

与过/欠反应文献：

Augenblick_Lazarus_Thaler_2025_Overinference_Underinference 记录了"弱信号过度推断、强信号不足推断"的模式，本文提供新的解释机制——错误的偏好感知而非概率推理错误。
Benjamin_2019_BaseRateNeglect_Foundations 综述了概率推理偏差，本文展示即使个体执行贝叶斯规则正确，错误的输入(perceived strategy distribution)也会导致系统性偏离。

与虚假共识/投射偏差文献：

Ross et al. (1977)、Krueger & Clement (1994) 心理学中的虚假共识效应；本文将其经济后果具体化到社会学习领域。
Bursztyn & Yang (2022) 关于宏观信念的错误感知；本文提供微观决策层面的对应证据。

与信念形成文献：

Enke_Zimmermann_2019_CorrelationNeglect_BeliefFormation 的相关性忽视；本文中投射偏差可视为对偏好相关性的过度感知。

维度7：可拓展的研究方向

长链社会学习： 将二人模型推广到 N 人序贯学习，研究投射偏差是否会被均衡化或被放大成系统性的"偏好回声室(taste echo chamber)"
结构估计： 对投射偏差参数进行结构估计，量化与其他偏差（base-rate neglect、conservatism）的相对重要性
金融市场应用： 将该框架移植到投资者从他人交易行为中学习的场景，检验对资产价格波动、动量/反转效应的解释力
去偏差干预实验： 系统比较多种干预形式（信息透明、反馈训练、自我意识提示、社交距离调节）的相对效果
跨文化比较： 在集体主义 vs 个人主义文化中比较投射偏差强度，与 Hofstede 维度联系
与算法推荐系统结合： 研究算法过滤气泡(filter bubble)如何与人类投射偏差交互，是否会加剧"虚假共识"
神经/认知机制： 用 fMRI 或 process-tracing 区分认知性投射 vs 动机性投射
对宏观信念形成的启示： 检验居民对通胀、失业等宏观变量的预期是否也受"邻居与我相似"投射偏差的影响

关键结论

即使在简单的两人序贯社会学习环境中，异质偏好通过观察者对他人偏好的错误感知（特别是自我中心式投射偏差）造成系统性的信息提取失真：观察者对"自己也会采取"的行为过度反应，对"自己不会采取"的行为反应不足，且这一模式可在个体内通过策略类型变化清晰识别。
简单提供关于他人偏好的额外信息（如商家评分）不足以消除社会学习偏差，因为偏差源于对策略分布的错误感知而非信息缺乏；这意味着推荐系统、政策传播、教育返回信息等领域的去偏差设计需要超越"信息透明"，引入更深层次的认知干预或结构性调整（如同质化网络、显式偏好类型分布展示）。