GagnonBartsch_HeterogeneousTastes_SocialMisLearning
Heterogeneous Tastes and Social (Mis)Learning
Authors: Tristan Gagnon-Bartsch (University of Iowa), Benjamin Bushong (Michigan State)
Date: July 2024
JEL: C91, D91, D84
一句话总结
当他人的行为同时反映其私有信息和异质偏好(heterogeneous tastes)时,观察者会因为对他人偏好的"自我中心式"错误感知(egocentric misperceptions)而系统性地误学习——对自己也会做的行为过度反应、对自己不会做的行为反应不足,且简单提供他人偏好信息无法消除这种偏差。
研究问题
- 当他人的行动既受私有信息驱动又受其特有偏好(idiosyncratic tastes)驱动时,观察者能否在贝叶斯框架下正确分离这两种信号源进行社会学习(social learning)?
- 若观察者对他人偏好分布持有错误信念(特别是"虚假共识效应/false-consensus effect"——高估他人与自己偏好相似的程度),这种错误如何在结构上扭曲社会推断?会产生过度反应还是不足反应?
- 提供关于他人偏好的额外信息(如商家评分)能否消除由错误偏好感知引起的社会学习偏差?
核心贡献
- 理论贡献: 构建了一个简洁框架,将异质偏好下的社会学习偏差归因于对"策略类型分布(strategy type distribution)"的错误感知,而非贝叶斯更新规则本身的错误。证明三种策略类型(SIA/SD/SIR)的人口比例是理性贝叶斯更新的充分统计量(sufficient statistic)。
- 方法贡献: 首次在自然偏好异质性环境(七家美国常见商家的礼品卡)中进行序贯社会学习实验(field-in-the-lab),并同时引出信念和选择,可在个体内(within-subject)识别投射偏差。
- 实证贡献: 提出并验证了"过度反应/不足反应"的新解释——观察者的过/欠推断不是源自概率推理错误(如base-rate neglect),而是源自对他人策略类型分布的错误感知。
- 政策启示: 信息干预(直接告知他人偏好)不足以纠正社会误学习,对推荐系统、政策传播、消费者评价系统等领域设计有启示。
维度1:实验设计分析
1. 核心研究问题
当人们的偏好(tastes)存在异质性时,观察者如何从他人的行为中学习?对他人偏好的错误认知是否会系统性地扭曲社会学习(social learning)过程?
核心张力:他人的行为既反映了其私有信息(private information),也反映了其特有偏好(idiosyncratic tastes)。正确的推断要求观察者恰当地区分这两种因素,而对他人偏好的错误感知——特别是自我中心的投射偏差(projection bias)——会导致系统性的误学习。
2. 理论模型
2.1 基本设定
模型考虑一个具有异质偏好的观察学习(observational learning)环境:
- 参与者: 一个知情的"行动者"(Player 1) 和一个"观察者"(Player 2)
- 行动空间: 二元行动 a \in \{A, R\},其中 A = 接受礼品卡,R = 拒绝(选择现金奖励 x)
- 状态空间: 礼品卡名义价值 \omega \in \{h, l\},h > l,两种状态等概率出现
- 决策问题: 以 (x, k) 标记,其中 x 为现金金额,k 为商家
2.2 偏好结构
- 行动者对商家 k 在状态 \omega 下的礼品卡估值记为 v_k(\omega)
- 估值单调性:v_k(h) > v_k(l)(高价值状态下估值更高)
- 礼品卡估值弱劣于面值:v_k(\omega) \le \omega
- 关键点:不同参与者对同一商家可能有不同估值,这是异质偏好的来源
2.3 信息结构与决策规则
- 行动者收到与状态相关的二元信号 s \in \{h, l\},精度 \phi > 1/2(实验中 \phi = 3/4)
- 信号对称:\Pr(s = z | \omega = z) = \phi
- 信念更新:\mu(h) = \phi,\mu(l) = 1 - \phi
- 决策规则: 行动者选择礼品卡当且仅当 \mu(s)v_k(h) + [1 - \mu(s)]v_k(l) > x
2.4 三种策略类型
给定决策问题 (x, k),行动者的行为可归纳为三种策略类型(strategy types):
- 信号无关接受型 (SIA, Signal-Independent Accept): 无论信号如何都选礼品卡
- 信号无关拒绝型 (SIR, Signal-Independent Reject): 无论信号如何都选现金
- 信号依赖型 (SD, Signal-Dependent): 仅当收到好信号 s=h 时选礼品卡
关键洞见:这三种类型的人口比例是贝叶斯更新的充分统计量。
2.5 观察者的贝叶斯更新
观察者看到行动者的选择 a 后,更新其对行动者收到好信号 s=h 的概率的信念,记为 \pi_{x,k}(a)。
设观察者认为 SIA 比例为 p_{x,k},SD 比例为 q_{x,k},SIR 比例为 1 - p_{x,k} - q_{x,k},则:
这一公式的重要含义:观察者无需了解他人偏好的全部细节,只需知道策略类型的分布即可进行理性推断。
2.6 过度反应与不足反应的度量
引入 Grether (1980) / Benjamin (2019) 框架,用对数优势比(log-odds)衡量偏离程度:
- c_a > 1:过度反应(over-reaction)——更新过度
- c_a < 1:不足反应(under-reaction)——更新不足
- c_a = 1:理性贝叶斯基准
2.7 命题1:错误信念导致的推断偏差
Proposition 1 指出,若观察者对策略类型分布持有不准确的信念(p_{x,k} 和 q_{x,k} 偏离真实比例 \bar{p}_{x,k} 和 \bar{q}_{x,k}):
- 看到行动 A 时:若 \frac{q_{x,k}}{p_{x,k}} > \frac{\bar{q}_{x,k}}{\bar{p}_{x,k}},则表现为过度反应
- 看到行动 R 时:若 \frac{q_{x,k}}{1-p_{x,k}} > \frac{\bar{q}_{x,k}}{1-\bar{p}_{x,k}},则表现为过度反应
2.8 投射偏差(Projection Bias)模型
将观察者对类型分布的感知建模为依赖于自身类型 \tau \in \{0, 1, 2\}(对应 SIR、SD、SIA):
- 核心假设:人们高估与自己类型相似的人的比例
- p_{x,k}(2) > \bar{p}_{x,k},q_{x,k}(1) > \bar{q}_{x,k}
- 感知的类型接近程度影响估计:例如 SD 类型认为 SIA 比 SIR 更常见,p_{x,k}(1) > p_{x,k}(0)
推论1 (Corollary 1): 在投射偏差下,当观察到拒绝行动 R 时,SD 类型比 SIR 类型表现出更大程度的过度反应——因为 SD 类型同时高估了 SD 和 SIA 的比例,低估了 SIR 的比例。
2.9 加入评分信息的扩展(实验2)
在实验2中,观察者额外看到行动者对商家的主观评分 r \in \{1,2,3,4\}。
- 理性预测:无论行动 a = A 还是 a = R,\pi_{x,k}(a|r) 都应随 r 递减
- 直觉:评分高的人更喜欢该商家,其拒绝行为更强烈地表明收到了坏信号
3. 实验设计与主要发现
3.1 实验设计
- 平台: Prolific,共455名参与者(实验1: n=229,实验2: n=226)
- 三阶段设计:
- 阶段1(问卷): 收集对7家美国企业(AMC、Amazon、Chick-fil-A、Home Depot、Old Navy、PetSmart、Starbucks)的偏好评分和对他人评分的预测
- 阶段2(行动者): 在礼品卡和现金($30/$40/$50)之间做选择,面临关于礼品卡价值($20或$100)的不确定性和二元信号
- 阶段3(观察者): 观察他人的选择,推断其收到好信号的概率,并自行选择
- 实验2差异: 观察者额外看到行动者的主观评分
3.2 四项核心发现
发现1:社会学习的基本比较静态成立
- 观察者正确推断:看到选礼品卡 \to 认为好信号概率更高
- 信念响应现金金额变化:x 越大,选卡越能说明收到好信号
- 实验2中观察者正确地考虑了行动者的评分信息(至少对 a=R 的情况)
发现2:系统性偏离理性基准
- 看到接受(a=A): 显著不足反应(c_A \approx 0.36-0.47)
- 看到拒绝(a=R): 大多数商家显著过度反应(c_R \approx 1.27-1.67,Amazon除外为0.71)
- 这意味着:参与者对高信息量行为推断不足,对低信息量行为推断过度
发现3:推断依赖于观察者自身偏好(投射偏差证据)
- 个体固定效应模型(Table 5):控制个体异质性后,SD 类型的观察者比 SIR 类型推断更多
- 隐含信念反推:SIR 类型认为自身类型占31%、SD占53%、SIA占16%;SD 类型认为 SIR 占22%、SD占62%、SIA占16%——都高估了自身类型的比例
发现4:信息干预效果有限
- 实验2提供行动者评分后,总体推断准确度并未改善,甚至略有恶化
- 观察者对评分信息的利用不足,低估了高评分行为中蕴含的信息量
4. 评价与启示
贡献
- 理论贡献: 构建了简洁的框架,将异质偏好下的社会学习偏差追溯到对策略类型分布的错误感知,而非贝叶斯更新规则本身的错误。这与 Bohren & Hauser (2021)、Frick et al. (2020) 等模型误设(model misspecification)文献互补
- 实验贡献: 首次在具有自然偏好异质性的环境中研究社会学习实验,同时收集信念和选择数据
- 方法贡献: 利用多商家设计实现个体内(within-subject)策略类型变化,从而识别投射偏差
局限
- 仅考察二人序贯学习,未涉及长序列信息级联(information cascade)
- 投射偏差的深层心理机制(认知还是动机性)未做区分
- 实验2的信息干预形式单一,不能排除其他类型的去偏差干预可能有效
- 样本限于美国在线参与者,外部有效性有待验证
对信念与行为研究的启示
- 社会学习中偏好异质性是一阶摩擦(first-order friction),不可忽视
- "看到别人做了什么"并不等于"理解别人为什么这样做"——偏好投射使得信息提取失真
- 信息干预(如告知他人特征)可能不足以纠正误学习,需要更深层次的去偏差机制
- 对社会网络设计的政策含义:同质小网络可能优于异质大网络,因为人们无法正确处理异质偏好
关键引用
- Banerjee (1992), Bikhchandani et al. (1992) -- 经典社会学习/信息级联模型
- Bohren & Hauser (2021) -- 异质误设模型下的学习
- Frick et al. (2020) -- 对他人的误解与社会学习的脆弱性
- Gagnon-Bartsch & Rosato (2023) -- 品味投射与观察学习中的质量误推断
- Augenblick et al. (2023) -- 弱信号过度推断与强信号不足推断
- Ross et al. (1977), Krueger & Clement (1994) -- 虚假共识效应
维度2:理论模型
详见维度1.2 节理论模型。核心模型要点:
- 贝叶斯基准: 三种策略类型(SIA/SD/SIR)的真实人口比例 (\bar{p}, \bar{q}, 1-\bar{p}-\bar{q}) 是理性更新的充分统计量
- 偏差来源: 投射偏差使观察者高估自己类型的人口比例
- 可识别预测: SD 类型在自己也采用 SD 策略的决策问题中过度更新;SIR 类型在自己采用 SIR 策略的决策问题中不足更新
维度3:核心发现
详见维度1.3.2 节四项核心发现。要点:
- 基础合理性: 观察者掌握社会学习的基本比较静态——选卡 → 推断好信号;现金金额 x 越大 → 选卡的信息含量越强
- 系统性偏离: 看到接受(a=A)时 c_A \approx 0.36-0.47(不足反应),看到拒绝(a=R)时 c_R \approx 1.27-1.67(过度反应)
- 投射偏差证据: 个体固定效应回归显示,控制个体异质性后,自身策略类型显著影响推断方向;隐含信念表明各类型都高估了自身类型的人口比例(约高估10-20个百分点)
- 干预无效: 实验2提供商家评分后,整体推断准确度未改善
维度4:变量概览
| 变量类别 | 变量名 | 取值/操作化 |
|---|---|---|
| 状态 | \omega | \{20, 100\} 美元,先验等概率 |
| 信号 | s | \{l, h\},精度 \phi = 3/4 |
| 决策问题 | (x, k) | x \in \{30, 40, 50\} 美元;k \in 7家商家 |
| 主观偏好 | rating | 4级 Likert 量表(negative → strongly positive) |
| 行动 | a | \{A= 接受礼品卡, R= 拒绝/选现金\} |
| 策略类型 | \tau | SIA(2) / SD(1) / SIR(0) |
| 信念 | \pi_{x,k}(a) | 观察者对行动者收到 s=h 的后验概率 |
| 反应度量 | c_A, c_R | 对数优势比拟合系数(>1 过度,<1 不足) |
| 实验2附加 | r | 行动者对商家的主观评分(4级) |
激励机制:选择阶段每个决策有10%概率被随机选中实际执行(gift card or cash);信念引出阶段使用 binarized scoring rule 激励真实陈述。
维度5:局限性
- 结构性局限: 仅二人序贯学习,未涉及长链信息级联(information cascade),无法直接外推到长序列社会学习场景
- 机制识别局限: 无法区分投射偏差的深层机制——是认知性的(cognitive shortcut)还是动机性的(motivated reasoning)
- 干预设计局限: 实验2只测试一种干预形式(提供主观评分),不能排除其他形式的去偏差干预(如反复反馈、显式概率训练)有效
- 外部有效性: 样本限于美国 Prolific 在线参与者;偏好集中于"消费品商家",未在金融、政治、信息品等场景验证
- 结构估计局限: 论文以归约式实证(reduced-form)为主,未对投射偏差参数进行结构估计,难以与其他偏差模型直接比较强度
- 支付规模局限: 礼品卡价值($20/$100)和现金奖金($30-50)虽真实但金额有限,可能低估了高 stakes 情境下的偏差程度
维度6:与其他文献的关系
与社会学习经典文献:
- 经典模型 Banerjee (1992)、Bikhchandani et al. (1992) 假设共同偏好(common preferences),本文证明放宽这一假设后会产生一阶摩擦。
- Anderson & Holt (1997) 创立的实验范式同样依赖诱导偏好,本文采用自然异质偏好(naturalistic tastes)。
与误设社会学习(misspecified social learning)文献:
- Bohren & Hauser (2021)、Frick et al. (2020) 从理论上分析对策略分布的错误感知如何引发误学习;本文提供首个对应的实验证据。
- Gagnon-Bartsch & Rosato (2023) 在拍卖中证明品味投射会导致质量误推断,本文将其拓展到序贯观察学习。
与过/欠反应文献:
- Augenblick_Lazarus_Thaler_2025_Overinference_Underinference 记录了"弱信号过度推断、强信号不足推断"的模式,本文提供新的解释机制——错误的偏好感知而非概率推理错误。
- Benjamin_2019_BaseRateNeglect_Foundations 综述了概率推理偏差,本文展示即使个体执行贝叶斯规则正确,错误的输入(perceived strategy distribution)也会导致系统性偏离。
与虚假共识/投射偏差文献:
- Ross et al. (1977)、Krueger & Clement (1994) 心理学中的虚假共识效应;本文将其经济后果具体化到社会学习领域。
- Bursztyn & Yang (2022) 关于宏观信念的错误感知;本文提供微观决策层面的对应证据。
与信念形成文献:
- Enke_Zimmermann_2019_CorrelationNeglect_BeliefFormation 的相关性忽视;本文中投射偏差可视为对偏好相关性的过度感知。
维度7:可拓展的研究方向
- 长链社会学习: 将二人模型推广到 N 人序贯学习,研究投射偏差是否会被均衡化或被放大成系统性的"偏好回声室(taste echo chamber)"
- 结构估计: 对投射偏差参数进行结构估计,量化与其他偏差(base-rate neglect、conservatism)的相对重要性
- 金融市场应用: 将该框架移植到投资者从他人交易行为中学习的场景,检验对资产价格波动、动量/反转效应的解释力
- 去偏差干预实验: 系统比较多种干预形式(信息透明、反馈训练、自我意识提示、社交距离调节)的相对效果
- 跨文化比较: 在集体主义 vs 个人主义文化中比较投射偏差强度,与 Hofstede 维度联系
- 与算法推荐系统结合: 研究算法过滤气泡(filter bubble)如何与人类投射偏差交互,是否会加剧"虚假共识"
- 神经/认知机制: 用 fMRI 或 process-tracing 区分认知性投射 vs 动机性投射
- 对宏观信念形成的启示: 检验居民对通胀、失业等宏观变量的预期是否也受"邻居与我相似"投射偏差的影响
关键结论
- 即使在简单的两人序贯社会学习环境中,异质偏好通过观察者对他人偏好的错误感知(特别是自我中心式投射偏差)造成系统性的信息提取失真:观察者对"自己也会采取"的行为过度反应,对"自己不会采取"的行为反应不足,且这一模式可在个体内通过策略类型变化清晰识别。
- 简单提供关于他人偏好的额外信息(如商家评分)不足以消除社会学习偏差,因为偏差源于对策略分布的错误感知而非信息缺乏;这意味着推荐系统、政策传播、教育返回信息等领域的去偏差设计需要超越"信息透明",引入更深层次的认知干预或结构性调整(如同质化网络、显式偏好类型分布展示)。