Modeling the Evolution of Beliefs Using an Attentional Focus Mechanism

元数据

作者: Dimitrije Markovic, Jan Glascher, Peter Bossaerts, John O'Doherty, Stefan J. Kiebel
年份: 2015
期刊: PLoS Computational Biology, 11(10): e1004558
DOI: 10.1371/journal.pcbi.1004558
关键词: belief updating, attentional focus, Wisconsin card sorting task, winner-take-all dynamics, Bayesian model comparison, belief solicitation
JEL分类: D83, D87, C91

一句话总结

通过22名被试的概率威斯康星卡片分类任务结合连续信念征询，将winner-take-all注意力网络嵌入贝叶斯层级推断框架并比较17个模型，证明只有同时包含贝叶斯更新和WTA注意力机制的"结构化"感知模型才能解释被试在动态噪声环境下的信念演化轨迹。

研究问题

人类在动态、噪声、多特征环境下进行特征相关性的信念更新时，标准贝叶斯推断是否足够？还是注意力聚焦机制（attentional focus）作为一种竞争性吸引子动力学（winner-take-all, WTA）是解释人类信念演化轨迹所必需的计算成分？

核心贡献

理论整合：首次将联结主义WTA网络动力学嵌入贝叶斯层级状态空间推断框架，提出"结构化感知模型"，统一了symbolic Bayesian与neural attractor两种传统；
实验范式创新：在概率WCST中引入信念征询机制（三角形内连续光标分配$20），从仅观察行为选择升级为直接测量高维信念分布的连续轨迹；
模型识别：构建17个模型变体，使用random-effects Bayesian Model Selection进行家族比较，证明结构化WTA模型（XP=1.00 in no-switch, 0.95 in switch）远优于无WTA的扩散模型与非贝叶斯R-W模型；
跨范式启示：WTA机制即使嵌入非贝叶斯框架（NB family）也是关键解释要素，提示注意力聚焦是更深层的认知机制；
对经济学信念建模的启示：标准Bayesian信念更新若忽略注意力调节，会系统性低估信念惰性与"先验选择"动力学，对确认偏误等行为现象提供计算基础。

维度1：实验设计分析

研究问题

注意力聚焦机制（attentional focus）如何调节人类在动态噪声环境中关于环境特征相关性的信念更新过程？

实验范式

概率性威斯康星卡片分类任务（Probabilistic Wisconsin Card Sorting Task, WCST）+ 信念征询（belief solicitation）

被试信息

样本量: n = 22（14男，8女）
来源: 加州理工学院（Caltech）健康学生志愿者
预训练: 所有被试经历三轮训练，逐步增加难度
伦理审批: Caltech IRB

实验任务详细流程

刺激材料

每个试次呈现一对卡片（上下两张），每张卡片包含三个视觉特征：
- 颜色（color）：红色 vs. 绿色
- 运动（motion）：向左 vs. 向右
- 形状（shape）：圆形 vs. 方形
每张卡片必须包含不同的exemplar，因此共有8种可能的卡片对配置

单个试次流程（约10秒）

刺激呈现（1秒）：屏幕显示8种卡片对配置之一（两张卡片，每张包含颜色、运动、形状三个特征）
实验者选择（1秒后出现）：程序以概率 1-epsilon 选择包含当前相关exemplar的卡片（正确卡片），以概率 epsilon 选择错误卡片。选择以高亮方式呈现（如蓝色矩形框标记）
观察期（5秒）：被试观察实验者的选择
响应期（4秒）：被试通过移动三角形内的光标来分配$20，表达对三个视觉特征相关性的信念。光标距离三角形某个角越近，分配给该特征的金额越多

实验结构

总计6个区块（block），每区块T = 40个试次
两种实验条件：
- No-switch条件（3个区块）：相关特征在整个区块内保持不变
- Switch条件（3个区块）：相关特征以概率 p = 0.35 发生切换（每次切换后至少8个试次保持不变）
错误率（噪声）：
- No-switch条件：epsilon = 0.2
- Switch条件：epsilon = 0.3

激励机制

实验结束后随机抽取一个试次，被试获得该试次中分配给真正相关特征的金额
这确保了被试有动机真实报告信念

训练阶段

第1轮：无切换、无错误率
第2轮：有切换、无错误率
第3轮：无切换、错误率 epsilon = 0.2（之后告知被试最后一个条件有非零错误率）

信息结构

被试被告知区块类型（switch vs. no-switch），但不被告知具体的错误率 epsilon 和切换概率 p 的数值
被试需要通过观察自行推断这些概率

设计特色

信念征询创新：不同于标准WCST只观察行为选择，本设计通过三角形内光标定位直接征询信念，提供了高维信念空间的连续测量
概率化设计：引入错误率使任务对健康被试也具有挑战性，同时产生平滑的信念轨迹

维度2：理论模型

总体框架："观察观察者"（Observing the Observer, OTO）

将行为建模分为两个模块：

感知模型（Perceptual model）：从感官观察到内部信念状态的映射
响应模型（Response model）：从信念状态到行为响应的映射

核心公式：生成模型

p(\vec{r}_t, \gamma, \theta | \vec{e}_t, m^{(p)}, m^{(r)}) = p(\vec{r}_t | b_t(b_{t-1}, \vec{e}_t, \gamma), \theta, m^{(p)}, m^{(r)}) p(\gamma, \theta | m^{(r)}, m^{(p)})

感知模型：层级状态空间模型

三层层级结构

第1层：当前正确假设 $H_t$ （6个假设，对应6个exemplar-特征对）
第2层：状态向量 $\vec{h}_t^{(e)} \in \mathbb{R}^6$ ，编码每个exemplar-特征对的相关概率
第3层：状态向量 $\vec{h}_t^{(f)} \in \mathbb{R}^3$ ，编码三个视觉特征的相关概率

观测似然

p(\vec{e}_t | H_t) = \prod_{k=1}^{6} p(e_{k,t} | \varepsilon)^{\delta_{H_t,k}}; \quad p(e_{k,t} | \varepsilon) = (1-\varepsilon)^{e_{k,t}} \varepsilon^{1-e_{k,t}}

Winner-Take-All (WTA) 动力学 -- 注意力聚焦的核心机制

第2层更新方程：
$ $\vec{h}_{t+1}^{(e)} = \tau_e \vec{h}_t^{(e)} + \kappa_e + W_{lat}^{(e)} \varphi(\vec{h}_t^{(e)} - \kappa_e) + W_{dist}^{(f)} \varphi(\vec{h}_t^{(f)} - \kappa_f) + \vec{\omega}_t^{(e)}$ $

第3层更新方程：
$ $\vec{h}_{t+1}^{(f)} = \tau_f \vec{h}_t^{(f)} + \kappa_f + W_{lat}^{(f)} \varphi(\vec{h}_t^{(f)} - \kappa_f) + W_{dist}^{(e)} \varphi(\vec{h}_t^{(e)} - \kappa_e) + \vec{\omega}_t^{(f)}$ $

其中 $\varphi(x) = \frac{1}{1+e^{-x}}$ 为sigmoid函数， $W_{lat}$ 为侧向抑制矩阵（实现WTA）， $W_{dist}$ 为层间兴奋连接。

贝叶斯信念更新（核心更新方程 Eq.11）

后验期望更新：
$ $\vec{\mu}_t = \vec{g}(\vec{\mu}_{t-1}) + \Sigma_t \vec{\delta}_t$ $

预测误差：
$ $\vec{\delta}_t = ((\vec{\rho}_t - \vec{\pi}(\vec{g}^{(e)}(\vec{\mu}_{t-1}))), \vec{0}_3)$ $

其中 $\vec{\rho}_t$ 为后验假设概率， $\vec{\pi}$ 为预测概率（softmax），更新幅度与预测误差成正比。

假设后验概率（Eq.9）

\rho_{t,k} = \frac{p(e_{t,k} | \varepsilon) e^{g_k(\vec{\mu}_{t-1})}}{\sum_{j=1}^{6} p(e_{t,j} | \varepsilon) e^{g_j(\vec{\mu}_{t-1})}}

响应模型

最优响应（Bayesian Decision Theory）

\vec{r}_t = \frac{\vec{P}_t^{\theta_1}}{\sum_{j=1}^{3} P_{t,j}^{\theta_1}}

其中 $\theta_1$ 为逆风险厌恶因子。

含噪声的响应模型（Eq.15-16）

\vec{r}_t = \frac{\vec{P}_t^{\theta_1} e^{\vec{\xi}_t}}{\sum_{j=1}^{3} P_{t,j}^{\theta_1} e^{\xi_{t,j}}}

\vec{\xi}_t \sim \mathcal{N}(0, P_t); \quad P_t = \theta_2 I_3 + \theta_3 \Sigma_t^{(f)}

两个噪声源： $\theta_2$ 为固定响应噪声， $\theta_3$ 为与后验不确定性成正比的随机采样噪声。

模型变体（共17个）

模型类型	关键特征	自由参数数量
BM（基线）	信念恒定	最少
$B_{w_1,w_2,w_3}^{f,r}$	贝叶斯 + 结构化WTA（三种连接矩阵变体）	最多
$B_d^{f,r}$	贝叶斯 + 扩散模型（无WTA）	中等
$B_{rw,rd}^{f,r}$	简化贝叶斯（无第3层）	中等
$NB_{w_1,w_2,w_3,d,rd,rw}^r$	非贝叶斯（类Rescorla-Wagner）	较少

模型比较方法

贝叶斯模型选择（Random-effects Bayesian Model Selection）
模型证据估计：Laplace近似 + CMA-ES（协方差矩阵自适应进化策略）优化
家族比较（Family-wise comparison）：将17个模型按特征分组进行比较
指标：期望概率（EP）和超越概率（Exceedance Probability, XP），阈值 XP > 0.95

维度3：核心发现

行为表现

No-switch条件表现优于switch条件：中位数表现差异显著（Kruskal-Wallis test, p < 10^{-14}）
反应时间：No-switch条件下反应时间更短（Kruskal-Wallis test, p < 10^{-12}）
10/22名被试在至少一个no-switch区块中表现不佳

模型比较核心结果

家族比较1：贝叶斯 vs. 非贝叶斯

两种条件下贝叶斯模型家族均以高置信度胜出
- No-switch: XP = 1.0000（B） vs. 0.0000（NB）
- Switch: XP = 1.0000（B） vs. 0.0000（NB）
效应量：NB模型家族与被试表现的Pearson相关系数中位数显著低于B模型家族（Kruskal-Wallis test, p < 0.005）

家族比较2：完整层级 vs. 简化模型

完整感知模型家族（含第2层和第3层）优于简化模型
- No-switch: XP(full) = 1.0000 vs. XP(reduced) = 0.0000
- Switch: XP(full) = 0.9717 vs. XP(reduced) = 0.0280

家族比较3：结构化模型（含WTA注意力机制）vs. 无结构模型

结构化模型优于无结构扩散模型
- No-switch: XP(structured) = 1.0000 vs. XP(structure-free) = 0.0000
- Switch: XP(structured) = 0.9475 vs. XP(structure-free) = 0.0524
这是论文最核心的发现：注意力聚焦机制（WTA动力学）对于解释行为数据至关重要

家族比较4：完整响应模型 vs. 简化响应模型

No-switch: XP(full response) = 0.9822 vs. XP(reduced) = 0.0178
Switch: XP(full response) = 0.7984 vs. XP(reduced) = 0.2016（不具结论性）
在no-switch条件下，响应变异性与后验不确定性成正比

WTA动力学的行为预测

信念更快收敛到当前工作假设
信念对环境频繁变化表现出更大的惰性（需要更多矛盾证据才能切换）
如果环境变化稀少，信念在到达吸引子后不再继续演化，切换时所需矛盾证据更少

非贝叶斯模型的有趣发现

在NB家族内部，含WTA动力学的变体（ $NB_{w_1,w_2,w_3}^r$ ）与被试表现的相关系数始终很高
无WTA的扩散变体（ $NB_d^r$ , $NB_{rd}^r$ ，类似经典强化学习模型）相关系数始终很低
这进一步表明：即使在非贝叶斯框架内，注意力聚焦机制也是解释行为的关键

维度6：与其他文献的关系

所属领域

计算神经科学 / 计算认知科学 / 实验经济学交叉

核心贡献

方法论创新：将联结主义的WTA网络动力学与贝叶斯推断框架整合为统一的信念更新模型
实验范式创新：首次在WCST中引入信念征询机制，直接测量被试的连续信念分布
实证发现：提供了注意力聚焦机制调节信念更新的计算证据

与前沿文献的关系

关系	文献	要点
延伸	Wilson & Niv (2011)	WCST中人类只追踪被关注特征的证据，本文提供了计算模型
建立在	Daunizeau et al. (2010a,b)	OTO框架的原始提出者
替代	Dehaene & Changeux (1991,1997)	经典联结主义WCST模型，本文在贝叶斯框架内推导出类似结构
关联	Feldman & Friston (2010)	自由能原理下的注意力理论，本文的WTA机制可兼容两种注意力观
关联	Acerbi et al. (2014)	人类概率推断中的次优性，响应变异性与后验不确定性成正比
关联	Rescorla-Wagner模型	非贝叶斯变体的更新方程在功能上类似R-W模型

对信念更新研究的启示

对经济学信念更新模型的意义：标准贝叶斯更新忽略了注意力对信息处理的调节作用。本文表明，一个竞争性吸引子动力学（促进被关注特征、抑制非关注特征）是解释人类信念演化的必要组件
与motivated beliefs文献的联系：虽然本文关注的是认知层面的注意力机制而非动机性偏差，但WTA动力学导致的"先验选择"（selection of prior expectation）机制可能与确认偏误（confirmation bias）有共同的计算基础

局限性

样本量较小（n=22），部分被试训练不足
两种条件下的错误率设置不同，导致条件间比较不完全平衡
模型选择依赖Laplace近似，可能对非线性强的模型不够精确
仅使用行为数据，未结合神经影像验证

维度4：变量概览

类别	变量	操作化定义
自变量(条件)	Block type	No-switch / Switch（被试内，3+3区块）
自变量(噪声)	Error rate ε	No-switch ε=0.2, Switch ε=0.3
自变量(切换)	Switch probability p	No-switch p=0, Switch p=0.35
刺激特征	Card features	颜色(红/绿)、运动(左/右)、形状(圆/方)
被试输入	Belief vector r_t	三维分配($20到3个特征)，三角形内光标位置
行为指标	Performance	分配给真正相关特征的金额比例
行为指标	Reaction time	4秒响应窗内决策延迟
内部状态	h_t^(e)	6维exemplar-特征对相关概率向量(第2层)
内部状态	h_t^(f)	3维特征相关概率向量(第3层)
内部状态	H_t	当前正确假设(6种之一)
模型参数	τ_e, τ_f	时间衰减常数
模型参数	κ_e, κ_f	偏置项
模型参数	W_lat, W_dist	侧向抑制矩阵(WTA) / 层间兴奋矩阵
模型参数	θ_1	逆风险厌恶因子(响应模型)
模型参数	θ_2	固定响应噪声
模型参数	θ_3	与后验不确定性成正比的随机采样噪声
模型比较	Exceedance Probability (XP)	阈值XP>0.95判定显著优势
模型比较	Expected Probability (EP)	模型在群体中的期望频率
激励	Real payment	随机选1试次按相关特征分配金额支付

维度5：局限性

样本量小：n=22，统计功效有限，部分被试在no-switch区块训练不充分（10/22表现不佳）；
条件不平衡：No-switch (ε=0.2) 与 Switch (ε=0.3) 的错误率不同，混淆了"切换"与"噪声"两个因素；
模型推断技术限制：使用Laplace近似估计模型证据，对高度非线性WTA动力学可能不够精确，未来可使用变分推断或MCMC；
缺神经数据：仅行为数据，未结合fMRI或EEG验证WTA吸引子动力学的神经基础；
任务范围窄：WCST是抽象规则学习任务，对真实经济决策（如资产选择、消费）的外部效度未检验；
被试不知具体ε和p：依赖被试自学习这些隐含参数，可能与模型假设的精确ε参数不匹配；
响应模型简化：响应噪声分解为θ_2(固定) + θ_3(后验依赖)，可能未完全捕捉决策噪声结构；
WTA连接矩阵选择：W_1, W_2, W_3三种结构启发式而非数据驱动，缺乏对最优拓扑的系统搜索；
静态特征集：仅3个特征(颜色/运动/形状)，未在更多维度的特征空间检验WTA机制的可扩展性。

维度7：可拓展的研究方向

神经成像验证：在fMRI/MEG中识别WTA吸引子动力学的神经基础，测试前额-顶叶网络是否实现侧向抑制；
跨任务推广：将WTA-Bayesian模型应用于资产组合选择、消费品类别选择等经济决策范式；
个体差异：将WTA参数(连接强度、衰减常数)与人格特征(开放性、认知灵活性)、临床特质(精神分裂、强迫症)关联；
与确认偏误整合：本文WTA机制导致"先验吸引"，与 Charness_2017_ConfirmationBias_MotivatedBeliefs、Palminteri_2022_ConfirmationBias_ReinforcementLearning 的确认偏误模型整合，建立统一框架；
环境复杂度：检验WTA动力学在更多特征(8-16维)、更高维度噪声下的扩展性；
学习率自适应：将WTA连接矩阵建模为时变（meta-learning），研究被试如何根据环境波动率调整注意力权重；
群体决策：扩展到多智能体场景，研究WTA注意力如何与社会信号(他人选择)交互；
与rational inattention对话：与 Caplin_Dean_2019_RationalInattention_ConsiderationSets、BoschRosa_Overprecision_IrrationalInattention 比较"理性注意力分配"与"竞争性吸引子注意力"的区别；
联想记忆机制对比：与 Enke_Schwerter_2020_AssociativeMemory_BeliefFormation、Bhui_Jiao_2023_AttentionConstraints_CategoryLearning 整合，建立"注意-记忆-信念"统一计算模型；
临床应用：将WTA信念模型应用于精神病学(妄想形成)、成瘾(强化学习偏差)等临床现象。

维度6：与其他文献的关系（补充）

Attention_2023_Attention_Constraints_Learning_Categories、Bhui_Jiao_2023_AttentionConstraints_CategoryLearning：注意力约束下的类别学习，与本文WTA机制在功能上相通；
Caplin_Dean_2019_RationalInattention_ConsiderationSets：理性不注意理论，与本文"自动化WTA"形成对比；
Enke_Schwerter_2020_AssociativeMemory_BeliefFormation：联想记忆与信念形成，本文WTA可视为注意-记忆界面机制；
Charness_2017_ConfirmationBias_MotivatedBeliefs、Palminteri_2022_ConfirmationBias_ReinforcementLearning、Rollwage_2020_Confidence_NeuralConfirmationBias：确认偏误研究，本文WTA机制可为其计算基础；
Bossaerts_2004_AssetPricing_LargeScaleExperiment：本文作者Bossaerts的资产定价实验工作，提供经济学应用桥梁。

关键结论

WTA注意力机制不可或缺：在贝叶斯框架内，含WTA动力学的"结构化"感知模型在两种实验条件下均以决定性证据(XP>0.95)优于无WTA的扩散模型，证明竞争性吸引子动力学是解释人类信念演化的必要计算成分。
贝叶斯推断仍是主导框架：贝叶斯模型家族决定性击败非贝叶斯R-W类模型(XP=1.00)，且响应变异性应建模为与后验不确定性成正比，而非纯固定噪声。
WTA机制超越贝叶斯/非贝叶斯的二分：即使在NB模型家族内，含WTA的变体也显著优于无WTA的扩散变体，说明注意力聚焦是底层认知机制，独立于具体推断框架。
对经济信念建模的启示：理性贝叶斯更新假设忽略了注意力对信息处理的调节，可能系统性低估信念惰性、先验吸引和切换成本，对资产价格惰性、消费习惯持续性等现象具有微观基础意义。

Markovic_2015_BeliefEvolution_AttentionalFocus

Modeling the Evolution of Beliefs Using an Attentional Focus Mechanism

元数据

一句话总结

研究问题

核心贡献

维度1：实验设计分析

研究问题

实验范式

被试信息

实验任务详细流程

刺激材料

单个试次流程（约10秒）

实验结构

激励机制

训练阶段

信息结构

设计特色

维度2：理论模型

总体框架："观察观察者"（Observing the Observer, OTO）

核心公式：生成模型

感知模型：层级状态空间模型

三层层级结构

观测似然

Winner-Take-All (WTA) 动力学 -- 注意力聚焦的核心机制

贝叶斯信念更新（核心更新方程 Eq.11）

假设后验概率（Eq.9）

响应模型

最优响应（Bayesian Decision Theory）

含噪声的响应模型（Eq.15-16）

模型变体（共17个）

模型比较方法

维度3：核心发现

行为表现

模型比较核心结果

家族比较1：贝叶斯 vs. 非贝叶斯

家族比较2：完整层级 vs. 简化模型

家族比较3：结构化模型（含WTA注意力机制）vs. 无结构模型

家族比较4：完整响应模型 vs. 简化响应模型

WTA动力学的行为预测

非贝叶斯模型的有趣发现

维度6：与其他文献的关系

所属领域

核心贡献

与前沿文献的关系

对信念更新研究的启示

局限性

维度4：变量概览

维度5：局限性

维度7：可拓展的研究方向

维度6：与其他文献的关系（补充）

标签

关键结论

🔗 链接到这篇笔记