Rational Inattention, Optimal Consideration Sets and Stochastic Choice

元数据

作者: Andrew Caplin, Mark Dean, John Leahy
年份: 2018 (January 2018, published in Review of Economic Studies)
期刊: Review of Economic Studies
DOI: 10.1093/restud/rdy037
关键词: #rational_inattention #consideration_sets #stochastic_choice #Shannon_model #information_cost #attention

一句话总结

将理性疏忽 (Rational Inattention, RI) 与考虑集 (Consideration Sets) 两大有限理性建模传统统一：证明 Shannon RI 模型最优解隐含考虑集的内生形成，并提供识别考虑集的充要条件——通过 Invariant Likelihood Ratio (ILR) 后验等式，先验信念空间被分割为对应不同最优考虑集的多个区域。

研究问题

在 Shannon 互信息成本下，理性疏忽决策者会从可用备选项 $A$ 中"考虑"哪些选项？是否所有选项都获得正选择概率？
给定先验信念 $\mu$ ，能否完全识别所有可能的最优考虑集 $B$ ？识别条件是什么？
当备选项价值独立 vs 相关时，考虑集的构成如何变化？是否存在对冲动机驱动的反直觉考虑集？
信息成本 $\lambda$ 、风险厌恶 $\rho$ 与考虑集大小之间是否存在单调关系？

核心贡献

充要条件 (Proposition 1)：在 Matejka-McKay 必要条件之外补足"未选行动的排除条件"，使考虑集首次可被完整识别。
ILR 几何刻画 (Proposition 2 + Theorem 3)：通过后验信念的不变似然比条件，将先验单纯形 $\Delta(\Omega)$ 分割成对应不同最优考虑集的区域，提供从先验到考虑集的完整映射。
三个典范情境：寻找好选项 (Theorem 1, 阈值规则)、独立估值 (Theorem 2, 凸变换排名)、相关估值 (对冲动机)，覆盖了信息经济学和营销学的主要应用场景。
非单调比较静态：发现安全资产是否进入考虑集与信息成本 $\lambda$ 是非单调关系，挑战了"低信息成本=广考虑集"的简单直觉。
市场进入分解：给出新选项进入考虑集的概率分解为期望水平 + 已选行动期望值 + 协方差对冲项，提供产品定位的实操工具。
统一两大文献：信息经济学 (RI) 与营销学/行为经济学 (考虑集) 的传统首次在严格优化框架下统一。

摘要

本文统一了有限注意力建模的两大基本方法：证明理性疏忽（rational inattention）模型隐含了考虑集（consideration sets）的形成——仅有可用备选项的一个子集会被纳入选择考虑。文章提供了识别理性疏忽行为下考虑集的充要条件。在简单情境中，被选择的选项是那些单独来看最优的；在更丰富的情境中，考虑集只能被整体性地识别。先验信念和收益共同影响考虑集的构成。简单线性方程可以识别与每一个可能考虑集一致的所有先验信念。

维度1：实验设计分析

论文性质说明

本文是一篇纯理论论文，不包含实验室实验或田野实验。文章通过数学建模和数值模拟来分析理性疏忽模型下考虑集的内生形成机制。以下分析聚焦于其三个理论应用（"消费者问题"）的设计结构，这些构成了论文的核心分析框架。

基本决策问题框架

世界状态: 有限状态集合 $\Omega$ ， $\omega \in \Omega$ 为某一状态
行动集合: $\mathcal{A}$ 为行动集， $A \subseteq \mathcal{A}$ 为可用子集
效用函数: $u: \mathcal{A} \times \Omega \to \mathbb{R}$ ，每个行动在每个状态下有确定收益
先验信念: $\mu \in \Delta(\Omega)$ ，决策者关于状态的先验分布
信息获取: 决策者在选择前可通过信号结构获取关于状态的信息，信息成本基于Shannon互信息
决策流程: 决策者选择状态依赖的随机选择函数 $P: \Omega \to \Delta(A)$ ， $P(a|\omega)$ 表示在状态 $\omega$ 下选择行动 $a$ 的概率

消费者问题1：寻找好的备选项（Finding the Good Alternative）

设定:

$M$ 个备选商品 $A = \{a_1, ..., a_M\}$ ，其中恰好一个是高质量的
高质量商品效用 $u_G$ ，低质量效用 $u_B$ （ $u_G > u_B$ ）
状态空间 $\Omega = A$ ，状态 $\omega_i$ 表示第 $i$ 个选项为高质量
先验 $\mu_i \equiv \mu(\omega_i)$ 表示选项 $a_i$ 为高质量的先验概率，按降序排列 $\mu_1 \geq \mu_2 \geq ... \geq \mu_M$
参数变换：定义 $\delta = \exp((u_G - u_B)/\lambda) - 1 > 0$

关键结果（Theorem 1）: 最优策略涉及阈值截断——只有先验概率排名前 $K$ 的选项进入考虑集：

$K$ 由条件 $\mu_K > \frac{\sum_{k=1}^K \mu(\omega_k)}{K + \delta} \geq \mu_{K+1}$ 确定
被选概率 $P(a_i) = \frac{\mu(\omega_i)(K+\delta) - \sum_{k=1}^K \mu(\omega_k)}{\delta \sum_{k=1}^K \mu(\omega_k)} > 0$ （ $i \leq K$ ）
所有被选选项的后验概率（条件于被选择后，该选项确实为高质量的概率）完全相同： $\frac{(1+\delta)\sum_{k=1}^K \mu(\omega_k)}{K+\delta}$

数值例子（Example 1）: $u_G=1$ , $u_B=0$ , 10个备选项，先验呈指数分布 $\mu(\omega_k) = \alpha\beta^{k-1}$ （ $\beta=0.8$ ）。在 $\lambda=1$ 时考虑集仅包含3个选项； $\lambda$ 下降时考虑集扩大， $\lambda=0.2$ 时包含10个选项。

消费者问题2：独立估值（Independent Valuations）

设定:

$M$ 个备选商品，每个商品价值独立抽取
状态空间 $\Omega = X^M$ （ $X$ 为有限效用水平集合）
效用 $u(a_i, \omega) = \omega_i$ ，直接等于状态向量的第 $i$ 个分量
独立性： $\mu(\omega) = \prod_{i=1}^M \mu_i(\omega_i)$

关键结果（Theorem 2）: 最优策略依然涉及截断，但排名标准变为归一化效用的期望：

$P(a_i) > 0$ 当且仅当 $Ez(a_i, \omega) = \sum_{\Omega} \exp(\omega_i/\lambda)\mu_i(\omega_i) > c$
这是一个凸变换，反映了信息获取的价值：方差越大的选项排名越靠前

数值例子（Example 2）: $X = \{0, 5.5, 10\}$ , 6个选项（1个安全选项值5.5, 5个风险选项各有50%概率值10或0）。考虑集与信息成本 $\lambda$ 的关系是非单调的：

$\lambda$ 很低时：所有选项都在考虑集中
$\lambda$ 中等时：仅风险选项在考虑集中（安全选项被排除）
$\lambda$ 较高时：安全和风险选项都在考虑集中
$\lambda$ 很高时：仅安全选项在考虑集中

消费者问题3：相关估值（Correlated Valuations）

设定:

不同备选项的价值可任意相关
简单截断规则不再适用，因为存在对冲动机

数值例子（Example 3）: 3个选项, 2个等概率状态。选项 $a$ : 两个状态都给效用5; 选项 $b$ : 状态1给6, 状态2给0; 选项 $c$ : 状态1给0, 状态2给15。尽管 $a$ 的期望归一化效用最高（1.65 vs 1.41），但 $\lambda=10$ 时最优考虑集为 $\{b, c\}$ ，因为 $b$ 在 $c$ 表现差的状态下提供了更好的对冲。

维度2：理论模型

Shannon模型的决策问题

决策者选择 $P \in \mathcal{P}$ 以最大化：

\sum_{\omega \in \Omega} \mu(\omega) \left(\sum_{a \in A} P(a|\omega)u(a,\omega)\right) - \lambda \left[\sum_{\omega \in \Omega} \mu(\omega) \left(\sum_{a \in A} P(a|\omega) \ln P(a|\omega)\right) - \sum_{a \in A} P(a) \ln P(a)\right]

第一项：行动的期望收益
第二项：信息成本 = $\lambda \times$ Shannon互信息（状态与行动之间）
$\lambda > 0$ ：信息的边际成本参数
$P(a) = \sum_{\omega \in \Omega} \mu(\omega)P(a|\omega)$ ：行动 $a$ 的无条件选择概率

Matejka-McKay (MM) 必要条件

对所有 $P(a) > 0$ 的行动 $a \in A$ ：

P(a|\omega) = \frac{P(a)z(a,\omega)}{\sum_{b \in A} P(b)z(b,\omega)}

其中 $z(a,\omega) \equiv \exp(u(a,\omega)/\lambda)$ 。这是一个logit型选择规则，最优策略将选择概率"扭转"向高收益状态。

核心贡献：充要条件（Proposition 1）

定义考虑集 $B(P) = \{a \in A | P(a) > 0\}$ 。策略 $P \in \mathcal{P}$ 是最优的当且仅当：

\sum_{\omega \in \Omega} \frac{z(a,\omega)\mu(\omega)}{\sum_{b \in A} P(b)z(b,\omega)} \leq 1

对 $a \in B(P)$ 取等号
对 $a \notin B(P)$ 严格小于1（排除条件）

这只需求解无条件概率 $P(a)$ ，因为 $P(a|\omega)$ 可由MM条件完全确定。

后验信念表述（Proposition 2）：不变似然比（ILR）条件

给定后验信念 $\gamma^a(\omega) = \frac{P(a|\omega)\mu(\omega)}{P(a)}$ ：

被选行动的ILR等式: 对任意 $a, b \in B(P)$ ：
$ $\frac{\gamma^a(\omega)}{z(a,\omega)} = \frac{\gamma^b(\omega)}{z(b,\omega)} \quad \forall \omega \in \Omega$ $
未选行动的似然比不等式: 对 $a \in B(P)$ , $c \notin B(P)$ ：
$ $\sum_{\omega \in \Omega} \frac{\gamma^a(\omega)}{z(a,\omega)} z(c,\omega) \leq 1$ $

净效用函数与几何解释

N(\gamma^a) = \sum_{\omega \in \Omega} [\gamma^a(\omega)u(a,\omega) - \lambda\gamma^a(\omega)\ln\gamma^a(\omega)]

最优后验集合最大化这些净效用的期望值。几何上，最优解对应于净效用函数凸包上位于先验正上方的点。

先验信念与考虑集的分区（Theorem 3）

给定 $\mu \in \Delta(\Omega)$ ， $B$ 是决策问题 $(\mu, A)$ 的考虑集当且仅当：

\mu \in S_B = \cup_{\hat{\gamma}_{\bar{a}} \in \Gamma_B^{\bar{a}}} \text{int}\{\text{conv}\{\hat{\gamma}_b(\hat{\gamma}_{\bar{a}}) | b \in B\}\}

其中 $\Gamma_B^{\bar{a}}$ 是与考虑集 $B$ 一致的后验集合。ILR条件产生的线性等式和不等式将先验空间 $\Delta(\Omega)$ 分割为多个区域，每个区域对应唯一的最优考虑集。

市场进入检验

新行动 $a$ 能否进入考虑集的条件可分解为：

\sum_{\omega \in \Omega} \frac{z(a,\omega)\mu(\omega)}{\sum_{b \in A} P(b)z(b,\omega)} = Ez(a,\omega) + E\left(\frac{1}{\sum_{b \in A} P(b)z(b,\omega)}\right) + \text{cov}\left(z(a,\omega), \frac{1}{\sum_{b \in A} P(b)z(b,\omega)}\right)

第一项：归一化效用的期望水平（与独立估值情况相同）
第二项：已选行动期望值的贡献（对所有行动相同）
第三项：对冲动机——与已选行动收益的协方差

维度3：核心发现

说明

本文为纯理论论文，不包含实证检验或实验数据。以下总结其通过数值模拟得到的核心理论预测。

预测1：内生考虑集的阈值结构

在"寻找好选项"问题中，只有先验概率高于阈值 $\mu_K > \frac{\sum_{k=1}^K \mu_k}{K+\delta}$ 的选项进入考虑集
例如 $\delta=1$ 时：前2个选项被考虑要求 $\mu_2/(\mu_1+\mu_2) > 1/3$ ；前5个被考虑要求 $\mu_5/(\sum_1^5 \mu_a) > 1/6$
含义: 先验概率低的选项被完全忽略，不会获得任何注意力

预测2：考虑集内的"最优错误"模式

在Example 1中（ $\beta=0.8$ , $\lambda=1$ ），虽然3个被选选项有不同的先验概率，但条件于被选择后其为高质量的后验概率完全相同（约31%）
决策者恰好学习到足够多的信息，使所有被考虑选项在事后看起来等质量
Effect size: 后验概率约31%，远高于各选项各不相同的先验概率

预测3：考虑集与信息成本的非单调关系

Example 2中安全选项在考虑集中的进出是非单调的
$\lambda=30$ : 仅安全选项被选（P(safe)接近1）
$\lambda=20$ : 安全和风险选项都被选
$\lambda=2$ : 仅风险选项被选
$\lambda=1$ : 所有选项再次都被选
机制: 安全选项在低信息成本时作为"知情保底"，在高成本时作为"非知情默认选项"

预测4：风险厌恶与信息成本的交互作用

效用函数 $u(x) = x^{1-\rho}/(1-\rho)$ ， $\rho$ 越高越风险厌恶
Figure 4显示：风险选项仅在低 $\lambda$ 或低 $\rho$ 时被纳入考虑集
高风险厌恶 + 高信息成本 = 仅选安全资产
存在中间区域（中等 $\rho$ ，中等 $\lambda$ ）所有选项都被考虑

预测5：对冲动机下考虑集的非直觉构成

Example 3中，选项 $a$ （两个状态都给效用5）的期望归一化效用（1.65）高于选项 $b$ （1.41），但 $a$ 被排除在考虑集之外
原因： $b$ 与 $c$ 形成更好的对冲组合， $b$ 在 $c$ 表现差的状态1中给出高收益
含义: 考虑集的形成不能仅基于单个选项的独立评估

维度6：与其他文献的关系

在理性疏忽文献中的位置

基础: Sims (2003) 开创了理性疏忽模型，使用Shannon互信息作为信息成本
直接扩展: Matejka and McKay (2015) 提供了离散选择下Shannon模型的必要条件（MM条件），本文将其扩展为充要条件
互补: Jung et al. (2015, JKMS) 研究连续状态空间下考虑集维度低于行动空间的条件，本文则关注离散情境下考虑集的具体特征
应用领域: 投资决策 (van Nieuwerburgh & Veldkamp, 2009)、定价 (Mackowiak & Wiederholt, 2009; Matejka, 2015)、全球博弈 (Yang, 2015)

与考虑集文献的桥接

Masatlioglu et al. (2012, AER): 显示偏好方法，假设考虑集为原始给定，选择在考虑集内确定性地最大化偏好。本文的考虑集是内生的，且考虑集内选择是随机的
Manzini & Mariotti (2014, Econometrica): 随机考虑集模型，每个选项以固定概率被考虑。本文中考虑是优化的结果而非随机过程
Hauser & Wernerfelt (1990): 营销学中考虑集的评估成本模型，本文提供了信息经济学的微观基础
Eliaz & Spiegler (2011): 竞争性营销中的考虑集，假设确定性选择

与随机选择文献的关系

Agranov & Ortoleva (2017): 实验证据表明选择确实是随机的
Geng (2016): 即使在考虑集内选择也是随机的，本文的模型产生这一预测
Brady & Rehbeck (2016): 菜单依赖的随机可行性模型

核心理论贡献

充要条件: 首次为Shannon模型提供充要条件，使得考虑集可以被完整识别（不仅是被选行动，还包括排除行动）
统一框架: 将理性疏忽（信息经济学）和考虑集（营销/行为经济学）两大传统统一
先验-考虑集分区: 证明ILR条件将先验空间分割为对应不同考虑集的区域，提供了从先验信念到考虑集的完整映射
内生错误: 考虑集内的选择"错误"与考虑集的形成由同一组参数决定，不同于现有模型中错误与考虑集无关的假设

方法论启示

提供了求解Shannon模型的实用算法（Blahut-Arimoto算法的经济学应用）
市场进入检验提供了判断新产品是否会进入消费者考虑集的简单工具
ILR条件可用于实验数据的结构估计

维度4：变量概览

变量	类型	说明
$\Omega$	状态空间	有限状态集
$\mathcal{A}, A$	行动集合	全部可用行动及其子集
$u(a, \omega)$	效用函数	状态依赖收益（外生）
$\mu \in \Delta(\Omega)$	先验信念	决策者关于状态的先验分布
$\lambda > 0$	信息成本参数	Shannon 互信息的边际价格
$P(a\|\omega)$	状态依赖随机选择	决策变量
$P(a)$	无条件选择概率	$\sum_\omega \mu(\omega) P(a\|\omega)$
$z(a, \omega) = \exp(u(a,\omega)/\lambda)$	归一化效用	logit 选择规则的核心变量
$B(P) = \{a : P(a) > 0\}$	内生考虑集	模型的关键被解释对象
$\gamma^a(\omega)$	后验信念	选择行动 $a$ 之后对状态的更新
$\delta = \exp((u_G - u_B)/\lambda) - 1$	复合参数	"找好选项"问题的核心
$K$	阈值排名	阈值之上的选项进入考虑集
$\rho$	风险厌恶	CRRA 应用中的偏好参数

维度5：局限性

Shannon 信息成本特殊性：Shannon 互信息是一个非常特殊的成本函数（连续可微、独立于先验形状），考虑集结构对成本函数选择高度敏感——其他成本（如 LLR、neighborhood-based costs）下结果可能改变。
纯理论无实证检验：本文不含实验或数据；考虑集是否真按 ILR 条件形成是开放的实证问题（Caplin & Dean 自己后续工作部分回应）。
静态决策：模型为单期问题；动态信息获取（顺序实验、停止规则）需要重大延伸。
无策略互动：决策者面对"自然"，无对手；将考虑集理论嵌入博弈/市场均衡是未完成的方向。
行动集外生：可用选项 $A$ 是给定的，未建模搜索成本或选项的内生发现；现实中"考虑集"和"知道存在"两层概念交织。
Shannon 容量假设：假设决策者可设计任意信号结构，认知现实中可能受限于具体的实验/感知模态。
风险中性效用线性：关键定理基于线性效用形式；凹效用下的扩展虽有 (Section 4)，但分析复杂度大幅提升。
未联系信念测量：先验 $\mu$ 在模型中是数学对象，但实证中如何引出与本文所需先验对应的信念，是连接经验研究的关键环节，本文未覆盖。

维度6：与其他文献的关系（补充）

理性疏忽基础：Sims (2003) 开创 RI 用 Shannon 互信息成本；Matejka & McKay (2015, AER) 给出离散选择 logit 形式的必要条件 (MM)，本文将其升级为充要。
行为注意力实验：Bhui_Jiao_2023_AttentionConstraints_CategoryLearning、Attention_2023_Attention_Constraints_Learning_Categories 等关注分类学习中的注意力约束，与本文的考虑集形成互补。
过精度与非理性疏忽：BoschRosa_Overprecision_IrrationalInattention 关注过精度与"非理性疏忽"，与本文的"理性"框架形成对比，提供行为偏离基线。
动机性注意力：Markovic_2015_BeliefEvolution_AttentionalFocus 讨论信念演化中的注意力焦点，可与本文的内生考虑集结合：注意力分配可能不仅由信息成本决定，也由情绪/动机调节。
信息回避：Tasoff_2009_Attention_Anticipation 研究预期带来的注意力分配，与本文的客观成本-收益框架形成对照。
散户投资行为：Barber_Odean_1998_IndividualInvestors_Performance、Odean_Volume_Overconfidence 关注散户的注意力驱动交易，本文为这类经验事实提供潜在的理性微观基础（散户的考虑集仅含少数股票符合 RI 预测）。

维度7：可拓展的研究方向

资产组合的考虑集：将本文应用于投资组合选择，解释为什么散户投资者仅持有 3-5 只股票（家庭金融文献的著名 puzzle）——是 RI 下最优考虑集的体现。
金融信息处理实验：设计实验测量被试在面对多个资产时的考虑集，估计 $\lambda$ ，并研究其与认知能力、金融素养、激励的关系。
动态考虑集：扩展到多期模型，研究考虑集如何随经验更新——如学习后能否扩大或收窄考虑集。
博弈中的考虑集：将 RI + 考虑集嵌入策略互动模型 (cf. Camerer_2003_Thinking_Learning_Teaching) ——玩家不仅有有限思考步数，还可能仅考虑对手的部分策略。
动机性考虑集：研究当某些选项与负面情绪 (担心/后悔) 关联时，是否被系统性排除出考虑集——RI 框架 + 动机性认知的混合。
替代信息成本：用其他成本函数 (如 LLR cost, posterior-separable cost, action-dependent cost) 重新刻画考虑集结构，对比 Shannon 模型的稳健性。
市场均衡与考虑集：将本文嵌入市场均衡——卖家定价、广告策略均影响买家先验从而影响考虑集，实证识别广告对考虑集的因果效应。
信念引出与考虑集互动：结合 Canen_2022_BeliefElicitation_Incentives 的洞见，研究当被试有限注意力时，不同信念引出方案的偏差如何放大或缓解。

关键图表

Figure 1: 不同 $\lambda$ 下的最优行为（先验、选择概率、后验），展示考虑集随信息成本变化
Figure 2: Example 2中选择概率与 $\lambda$ 的非单调关系
Figure 4: 考虑集作为风险厌恶 $\rho$ 和信息成本 $\lambda$ 的函数的相图
Figure 5-6: 净效用函数的几何解释
Figure 7-8: ILR条件在概率单纯形上的几何表示和先验空间分区

与本项目的关联

本文为理解有限注意力下的信念形成和选择行为提供了严格的理论基础。核心洞见——理性疏忽自然导致考虑集的形成，且考虑集内的选择"错误"是最优信息获取策略的副产品——对设计信念实验具有重要启示：

实验中观察到的非最优选择可能反映的是信息约束下的最优策略
先验信念直接影响考虑集的构成，因此信念操纵可能改变被考虑的选项集而非仅改变选择概率
考虑集与信息成本的非单调关系提示实验设计中需要仔细控制任务复杂度

关键结论

在 Shannon 互信息成本下，理性疏忽决策者的最优策略隐含考虑集的内生形成——只有先验概率（或归一化期望效用）超过特定阈值的选项进入考虑集，且阈值由信息成本 $\lambda$ 与备选项参数共同决定；考虑集内选项的后验等质量 (即被选时为高质量的概率相同)，构成"最优错误"模式。
充要识别条件由 ILR 后验等式与未选行动的似然比不等式共同给出，将先验单纯形 $\Delta(\Omega)$ 分割为对应不同最优考虑集的多个区域；这一映射连接了信息经济学与营销学/行为经济学两大传统，并为信念调控如何改变实际选择集提供了严格的微观基础。

Caplin_Dean_2019_RationalInattention_ConsiderationSets