Belief-Based Utility and Signal Interpretation

Kozakiewicz (2025), Working Paper

一句话总结

通过一个创新的两箱（two-box）实验设计和新的控制条件（hypothetical signal），本文提供了信念效用（belief-based utility）驱动信号解读不对称性的直接证据：被试倾向于将有利信号解读为更有信息量，而对不利信号的感知信息量较低，且这种不对称在控制条件下消失。

研究问题

人们在收到正面 vs. 负面反馈后，是否会以不同方式解读信号的信息量（informativeness）？现有文献对非对称更新的方向和大小结论不一致（Benjamin, 2019）。本文追问：(1) 不对称性的底层机制是什么——是信念效用驱动的信念操纵（belief manipulation），还是认知过程本身的偏差？(2) 当信号是"意料之外"的（unexpected，即先验概率为零的状态）时，被试如何反应？

核心贡献

升级的Treatment设计：将状态空间扩展为10个rank（而非传统的二元高/低），使信号的情感价值（affect）差异更大，更容易检测到操纵效应
新的控制条件（hypothetical signal）：被试在控制组评估的是假想信号实现的条件概率，信号不改变当前信念，因此不激发信念效用，从而直接识别utility-driven的信念操纵
expected vs. unexpected信号的区分：发现被试对符合先验的好消息过度反应，但对超出先验分布的"意外"坏消息反而过度反应（偏悲观），后者可用Ortoleva (2012)的Hypothesis Testing Model解释
情绪机制的探索性证据：问卷数据表明预期性情绪（anticipatory emotions，如焦虑、希望）和情绪调节策略（reappraisal）与信念操纵程度相关

维度1：实验设计分析

实验平台与类型

类型：lab experiment
平台：BonnEconLab（University of Bonn）
被试：N=428（分析样本N=402，排除控制题错误≥3次的26人），两波数据收集（2020年夏季和2023年）
时长：约80分钟
平均报酬：21.4欧元
预注册：AEA RCT Registry (AEARCTR-0006233)

实验任务完整流程（按时间线还原）

第一部分：IQ测试

被试在电脑上完成一个包含29道标准逻辑题的IQ测试，限时10分钟，要求尽量多做。得分 = 正确数 - 错误数。每得1分支付0.75欧元。被试被告知：(1) IQ测试的收入会加到后续任务的收入中，实验结束时一次性支付；(2) 实验期间不会得知自己的IQ得分或赚了多少钱；(3) 测试结果和支付细节将在实验结束一周后通过个人链接查看。这个延迟设计的目的是减轻"自我保护"式的悲观信念（被试不会为了准备一个令人失望的结果而故意压低预期）。

Questionnaire I（IQ测试后）

包含简版Big-5人格问卷（Gerlitz and Schupp, 2005）和State-Trait Anxiety Inventory (STAI)（Spielberger, 1983）。

第二部分：信念引出与信号阶段

被试被告知将完成3个任务，每个任务最多赚12欧元，但只有随机抽中的1个任务用于支付。

Task 1：先验信念引出（Belief Elicitation I）

屏幕展示：基于此前300名BonnEconLab被试的IQ测试成绩分布，将成绩分为10个decile（"ranks"）。Rank 1 = 最好（得分 ≥ 90th percentile），Rank 10 = 最差（得分 ≤ 10th percentile）。

被试在10个水平滑条上分配100个点，每个滑条对应一个rank。界面实时显示：

每个rank已分配的点数（滑条下方文字）
右侧柱状图实时更新分配情况
顶部显示"剩余需分配的点数"

激励机制：采用binarized scoring rule（Hossain and Okui, 2013）。随机变量X取10个值之一（每个值对应一个rank），被试的报告为 $x = (x_1, ..., x_{10})$ 。若被试的实际IQ得分落在第k个decile，则：
$ $s(x,k) = 2x_k - \sum_i x_i^2 + 1$ $
若此值超过一个[0,2]上均匀分布的随机数，被试赢得12欧元。说明书直接告知被试："按真实信念分配点数时，赢得大奖的概率最大。"

注意：被试在第一次信念引出时不知道后面还会被要求再次报告信念。

Task 2：信号阶段（The Signal Stage）——Treatment与Control在此分叉

被试首先接收第二个任务的说明。屏幕展示两个箱子的设定：

每个箱子包含10个球，球上写有数字
Box 1包含数字1到10的球，每个数字恰好出现一次
Box 2包含10个球，上面都写着同一个数字，这个数字等于你的rank

例如：若某被试的rank是2，则Box 2包含10个都写着"2"的球。屏幕展示了一个直观的图示（如Figure 3所示），清楚地呈现两个箱子中球的排列。

信号生成过程：

电脑以等概率(1/2)随机选择Box 1或Box 2
从选中的箱子中随机抽取1个球
被试在屏幕上看到球上的数字（"The number drawn: 8"）
被试不知道球来自哪个箱子

被试的任务：判断球来自Box 2的概率。具体操作：在一个滑条上分配100个点给Box 1和Box 2，表达自己对"球来自哪个箱子"的信念。

滑条界面显示：

当前分配比例（"Your allocation: 20 points to Box 1, and 80 points to Box 2"）
比率信息（"You allocated 4.0 times as many points to Box 2 as to Box 1"）
下方柱状图实时更新

移动光标时，被试可选择将 $x \in \{1, 1.1, ..., 99\}$ 倍的点数分配给某个箱子。

激励机制：与Task 1相同的binarized scoring rule，确保激励兼容。

在进入信号阶段之前，被试必须正确回答一组控制题，检验其对任务的理解（包括如何用贝叶斯法则推导后验概率的步骤性示例）。

Treatment条件（N=322，实际信号）：

被试看到从实际选中箱子中抽出的球上的数字
这个数字构成一个关于其rank的有噪声信号
被试据此报告对Box 2的信念（即对"球来自写有自己rank的箱子"的主观概率）
关键点：信号实现后，信念效用被激活——如果看到一个好数字（低rank = 高能力），信念效用增加，被试有动机操纵信念

Control条件（N=106，假想信号）：

被试不看到实际抽到的球
而是依次考虑每一个可能的数字（1到10），使用与Treatment相同的界面，为每个假想信号分别报告信念
屏幕标题为"Consider the number"（而非Treatment中的"The number drawn"）
被试被告知：虽然会看到所有10个数字，但这不完全是假想的——之后电脑会随机选箱子并抽球，被试将为与实际信号匹配的那个决策获得支付
关键点：假想信号不改变被试当前持有的信念，因此不改变信念效用 $u(p_0)$ ，被试没有动机操纵信念

可比性处理：

Treatment组在看到实际信号前，也被要求浏览10张幻灯片（每张展示一个可能的数字），思考15秒后点击"Continue"，但不做决策。这确保两组被试都思考过所有可能情形
控制组中数字呈现顺序随机化，Treatment组中幻灯片顺序也随机化
两组使用完全相同的界面，唯一区别是标题文字

Task 3：后验信念引出（Belief Elicitation II）

使用与Task 1完全相同的界面和激励机制，被试再次在10个rank上分配100个点。这次引出的是后验信念分布。

Questionnaire II（所有任务完成后）

包含：

Emotion Regulation Questionnaire (ERQ)（Gross and John, 2003）：测量reappraisal和suppression两种情绪调节策略的习惯使用程度
Achievement Emotions Questionnaire (AEQ)部分题目（Pekrun et al., 2011）：测量与成就相关的8种情绪（enjoyment, hope, pride, relief, anger, anxiety, shame, hopelessness）

Treatment与Control设计

主要操纵（between-subjects）：

Treatment（N=322）：被试收到并观察一个实际信号（真实抽到的球上的数字），信念效用被激活
Control（N=106）：被试依次考虑10个假想信号实现，信念效用不被激活（因为假想信号不改变当前信念）

随机化策略

被试随机分配至Treatment或Control
两组在IQ测试得分、rank、先验信念分布、Big-5人格和STAI焦虑量表上无显著差异（Table 5, 6）
信号从Box 1或Box 2中等概率随机抽取
控制组中数字呈现顺序随机

激励机制

IQ测试：每分0.75欧元
3个任务各最多12欧元，随机抽1个支付
Binarized scoring rule确保激励兼容（truthful reporting maximizes winning probability）
分析限制在通过控制题的被试中（排除6%）

维度2：理论模型

信念选择模型（Belief Choice Model）

基于Brunnermeier and Parker (2005)的belief-based utility框架。代理人学习未知状态 $\omega \in \{H, L\}$ （如认知能力高/低）。

效用函数：
$ $U(\tilde{p}_{1,s}) = u(\tilde{p}_{1,s}) - \frac{1}{2\gamma}(p_{1,s} - \tilde{p}_{1,s})^2$ $

其中：

$\tilde{p}_{1,s}$ ：被试选择的（可能被操纵的）后验信念
$p_{1,s}$ ：未被操纵的后验（由理性过程形成）
$u(\cdot)$ ：信念效用函数，关于高状态概率递增、凹、二阶连续可微
$\gamma > 0$ ：信念操纵的成本参数
第二项：二次操纵成本，取决于操纵信念与理性信念的距离

一阶条件：
$ $\gamma u'(\tilde{p}_{1,s}) = \tilde{p}_{1,s} - p_{1,s}$ $

不对称更新的预测

由于 $u(\cdot)$ 是凹的且递增的，好消息（ $s = H$ ）后 $p_{1,H}$ 较高， $u'(p_{1,H})$ 较小，操纵幅度 $\tilde{p}_{1,H} - p_{1,H}$ 相对较大（因为边际效用递减，操纵的边际成本相对较低）。坏消息后反之。因此：
$ $\tilde{p}_{1,H} - p_{1,H} > p_{1,L} - \tilde{p}_{1,L}$ $

即好消息后的正向操纵大于坏消息后的负向操纵——这就是不对称更新的微观基础。

控制条件的理论预测

假想信号不改变被试当前信念（仍为 $p_0$ ），不改变 $u(p_0)$ 。代理人报告 $\bar{p}_{1,s}$ ，效用为：
$ $U(\bar{p}_{1,s}) = u(p_0) - \frac{1}{2\gamma}(p_{1,s} - \bar{p}_{1,s})^2$ $

一阶条件给出 $\bar{p}_{1,s} = p_{1,s}$ ——没有操纵动机，报告等于理性后验。

可检验假说

H1.1：Treatment中好信号后的信念操纵大于坏信号后（ $\alpha_2 > 0$ ）
H1.2：Control中好信号与坏信号后无不对称（ $\alpha_2 = 0$ ）
H1.3：两组中贝叶斯基准的权重（ $\alpha_1$ ）应相同
H2.1（DID）：Treatment中好信号的效应显著大于Control（ $\beta_3 > 0$ ）
H2.2（Matching）：Treatment中对好信号的偏离（相对于反事实）显著为正（ $\gamma_1 > 0$ ）

先验概率为零的情况（Unexpected Signals）

当信号指向被试赋予零先验概率的状态时，贝叶斯更新未定义。采用Ortoleva (2012)的Hypothesis Testing Model (HTM)：代理人面对unexpected信号时，重新考虑其世界模型（model of the world），选择一个与证据更一致的替代模型，基于新模型的先验进行贝叶斯更新。这导致unexpected信号后被试可能变得更悲观（HTM后验 $p_{1,s=L}^{HTM} \leq p_0$ ）。

维度3：核心发现

Result 1：Expected信号的不对称性

Treatment中，被试收到expected好信号（1-4）后，倾向于将更多点分配给Box 2（即认为信号更可能来自代表自己rank的箱子），相比Control条件
Treat × Good Signal交互项：在Exp样本中为12.450（p=0.015），占Treatment中平均决策的22%（Table 1）
效应量：被试在好消息后比控制条件高出约11个百分点
在Exp+样本（包含adjacent信号）中效应更强：11.565（p<0.01）

Result 2：Treatment中的信念操纵

以贝叶斯后验为基准，Good Signal系数在Exp样本中为9.586（p=0.004），即好信号后被试偏离贝叶斯后验约9.6个百分点（Table 3）
结果对选择偏差稳健：限制在收到Box 1随机数字的子样本中，估计几乎相同

Result 3：控制条件中无不对称

Control中Good Signal系数在所有样本中均不显著（Exp: -0.083, p>0.10; Exp+: -0.293, p>0.10）（Table 4）
两组中贝叶斯基准的权重（ $\beta$ ）无显著差异（Table 9, Appendix C.5）

Result 4： $\beta$ 参数跨条件一致

Treatment中 $\beta = 0.860$ （Exp），Control中 $\beta = 0.869$ （Exp），差异不显著
支持模型假设：理性过程在两个条件中相同，差异源于信念效用

Unexpected信号的发现

收到unexpected信号（先验为零的rank）的被试，Treat × Good交互项为负（-14.102, p<0.05）（Table 1, Unexp列）
即unexpected好信号后，被试反而变得更悲观——与HTM一致
问卷数据表明：unexpected坏信号后的决策与负面预期性情绪（焦虑、绝望）和reappraisal策略的使用显著相关

稳健性检验

控制先验信念分布的不同测度（均值、中位数、分位距）：结果稳健（Appendix D.1）
替换回归规格（Appendix D.2）：稳健
将"好信号"定义改为前3个或前5个：效应存在但较弱（Appendix D.3）
排除时间效应（前5个vs后5个decision）：稳健（Appendix D.5）
排除默认选项效应：稳健（Appendix D.6）
排除锚定效应：稳健（Appendix D.7）
Nearest neighbor matching方法：Good Signal系数在Exp样本中为11.922（p<0.05）（Table 2）

维度4：变量概览

观测变量（Outcome Variables）

$Y_i$ （主任务决策）：分配给Box 2的点数（0-100），反映被试对"球来自Box 2"的后验信念
Belief Manipulation：Treatment与Control决策之差（ $Y_i^{Treat} - Y_i^{Control}$ ），衡量信念操纵程度
$Y_i - \hat{Y}_i$ （偏离反事实）：Treatment中实际决策与nearest neighbor matching预测的反事实决策之差

核心自变量 / Treatment 变量

Treatment：指示变量，=1 if 被试在Treatment条件（实际信号），=0 if 在Control条件（假想信号）
Good Signal：指示变量，=1 if 被试收到/考虑的信号为前4个最好的信号（1, 2, 3, 4）
Treat × Good：交互项，关键识别变量，捕捉好消息在实际 vs. 假想条件下的差异效应

控制变量

被试的rank（IQ测试的实际decile排名）
信号对应rank的先验概率（Belief Elicitation I中分配的点数）
先验信念分布的均值/中位数
$Y_i^{Bayes}$ ：贝叶斯后验下应分配给Box 2的点数

中介 / 调节变量（探索性）

预期性情绪（anxiety, hope, pride, relief, anger, shame, hopelessness）——AEQ
情绪调节策略（reappraisal, suppression）——ERQ
Big-5人格特质
STAI（State-Trait Anxiety Inventory）

维度5：局限性

样本组成：仅限Bonn大学学生，女性占26%，样本可能在认知能力分布上不具代表性
IQ测试的特殊性：认知能力是一个高stakes的ego-relevant特征（关联未来收入、教育成就），其信念效用可能远高于金融领域的反馈（如Barron, 2021发现金融领域的不对称性较弱），限制了结论向其他领域的推广
控制条件的非完美替代：假想信号条件下被试可能付出较少努力（尽管方差检验和默认选项分析表明无显著差异），且10次决策可能产生疲劳效应
Unexpected信号的因果推断困难：无法计算贝叶斯基准（先验为零），无法独立验证HTM，也无法用控制条件检验（控制条件下的"重新考虑模型"是否也会发生尚不清楚）
单信号设计：每个被试只收到一个信号，无法观察信念的动态更新过程；多信号的聚合效应可能与单信号不同（Enke et al., 2024发现behavioral attenuation）

维度6：与其他文献的关系

与信念更新文献的核心关系

解决了Benjamin_BaseRateNeglect_Foundations元分析中指出的非对称更新文献结论不一致的问题：本文认为不一致源于(1)缺乏合适的控制条件和(2)未区分expected vs. unexpected信号
与Eil_Rao_2011_GoodNewsBadNews_AsymmetricProcessing方向一致（好消息后overweight），但机制不同：Eil and Rao使用ego-relevant vs. neutral对比，本文使用hypothetical vs. actual信号对比
与Zimmermann_2020_DynamicsMotivatedBeliefs互补：Zimmermann研究多信号下的动态更新，本文聚焦单信号下的信号解读

与motivated reasoning文献的关系

理论基础来自Brunnermeier and Parker (2005)的optimal expectations和Caplin and Leahy (2019)的wishful thinking模型
方法论创新：相比Drobner (2022)通过不确定性解决时间的差异来识别，本文直接操纵信念效用是否被激活
与Drobner and Goerg (2024)的关系：他们操纵IQ测试效度的感知，但这同时改变了信号精度（precision），本文的设计保持了信号结构不变

与contingent thinking文献的关系

控制条件类似于Aina_ContingentBeliefUpdating中的strategy method，但本文的核心区别在于：strategy method中被试也可能受到contingent thinking导致的偏差影响，而本文的理论预测是控制条件下不应有不对称（因为没有信念效用激活）

与情绪和决策文献的关系

探索性分析呼应了Caplin and Leahy (2001)关于预期性情绪影响决策的理论
Unexpected信号的情绪效应与Anticipatory_2024_Anticipatory_Anxiety_Wishful_Thinking中的anticipatory anxiety机制一致

维度7：可拓展的研究方向

将设计推广到其他ego-relevant领域：如健康信息（基因检测结果）、学业表现（GPA反馈），检验信念效用的领域特异性
引入多信号的动态版本：将two-box设计嵌入多轮更新范式，检验信念操纵是否在多轮信号后衰减或累积
操纵信念效用的强度：例如改变"一周后才能查看结果"的时间窗口，或改变IQ测试与真实后果的关联程度，直接验证信念效用的功能形式
将hypothetical control方法应用于政治信念和社会规范领域：测试belief-based utility在非能力领域（如政治极化、气候变化信念）中是否同样驱动非对称更新
深入研究unexpected信号的机制：设计实验直接测量"模型重考"（HTM中的model switching）过程，区分reappraisal vs. 纯粹的认知修正
利用问卷测量的情绪变量开展因果推断：在实验中直接操纵情绪状态（如通过情绪诱发任务），检验情绪是否因果地中介信念操纵

关键结论

人们倾向于将有利（expected）信号解读为比不利信号更有信息量（informativeness高约11个百分点/22%），这种不对称在假想信号条件下消失，提供了信念效用驱动信念操纵的直接证据
对于unexpected信号（先验为零的状态），效应逆转——被试对unexpected好消息反而持怀疑态度，可能源于情绪驱动的"范式转换"过程，揭示了信念形成比以往认知更为复杂，overconfidence和underconfidence可以在同一框架下共存

Belief_2023_Belief_Based_Utility_Signal

Belief-Based Utility and Signal Interpretation

一句话总结

研究问题

核心贡献

维度1：实验设计分析

实验平台与类型

实验任务完整流程（按时间线还原）

Treatment与Control设计

随机化策略

激励机制

维度2：理论模型

信念选择模型（Belief Choice Model）

不对称更新的预测

控制条件的理论预测

可检验假说

先验概率为零的情况（Unexpected Signals）

维度3：核心发现

Result 1：Expected信号的不对称性

Result 2：Treatment中的信念操纵

Result 3：控制条件中无不对称

Result 4： $\beta$ 参数跨条件一致

Unexpected信号的发现

稳健性检验

维度4：变量概览

观测变量（Outcome Variables）

核心自变量 / Treatment 变量

控制变量

中介 / 调节变量（探索性）

维度5：局限性

维度6：与其他文献的关系

与信念更新文献的核心关系

与motivated reasoning文献的关系

与contingent thinking文献的关系

与情绪和决策文献的关系

维度7：可拓展的研究方向

关键结论

🔗 链接到这篇笔记

Belief_2023_Belief_Based_Utility_Signal

Belief-Based Utility and Signal Interpretation

一句话总结

研究问题

核心贡献

维度1：实验设计分析

实验平台与类型

实验任务完整流程（按时间线还原）

Treatment与Control设计

随机化策略

激励机制

维度2：理论模型

信念选择模型（Belief Choice Model）

不对称更新的预测

控制条件的理论预测

可检验假说

先验概率为零的情况（Unexpected Signals）

维度3：核心发现

Result 1：Expected信号的不对称性

Result 2：Treatment中的信念操纵

Result 3：控制条件中无不对称

Result 4：\beta参数跨条件一致

Unexpected信号的发现

稳健性检验

维度4：变量概览

观测变量（Outcome Variables）

核心自变量 / Treatment 变量

控制变量

中介 / 调节变量（探索性）

维度5：局限性

维度6：与其他文献的关系

与信念更新文献的核心关系

与motivated reasoning文献的关系

与contingent thinking文献的关系

与情绪和决策文献的关系

维度7：可拓展的研究方向

关键结论

🔗 链接到这篇笔记

Result 4： $\beta$ 参数跨条件一致