Measuring Numeracy without a Math Test: Development of the Subjective Numeracy Scale

元信息

作者: Angela Fagerlin, Brian J. Zikmund-Fisher, Peter A. Ubel, Aleksandra Jankovic, Holly A. Derry, Dylan M. Smith
年份: 2007
期刊/来源: Medical Decision Making, 27:672-680
关键词: numeracy, risk communication, decision making, literacy, measurement
DOI/链接: 10.1177/0272989X07304449

一句话总结

通过3项研究开发并验证了8题主观计算能力量表（Subjective Numeracy Scale, SNS），证明其与客观计算能力高度相关（r=0.53，校正后0.68），同时显著降低被试负担、负面情绪与缺失数据率。

研究问题

如何在不让被试做"数学考试"的前提下有效测量计算能力（numeracy），从而在医疗风险沟通研究中既保证测量效度，又减少被试厌恶情绪、避免电话/网络调查的施测困难？

核心贡献

方法学创新：首次系统化提出基于自我评估（self-assessment）的计算能力测量框架，以"能力自评"和"数字信息呈现偏好"双维度替代传统客观测试
量表开发：通过3项独立研究、约700名被试，最终确定8题SNS（4题能力 + 4题偏好），具备良好信度（α=0.82）和效标效度
实证验证测量优越性：以随机对照实验证明SNS在完成时间、负面情绪、后续参与意愿、缺失数据率等被试体验维度上均显著优于客观量表
应用价值：为电话调查、网络调查、纵向研究等场景提供了可行的计算能力测量工具

维度1：实验设计分析

整体研究架构

本文通过3项研究（Study 1-3）逐步开发并验证了主观计算能力量表（Subjective Numeracy Scale, SNS）。研究采用纸笔问卷形式，在医院等候区招募一般公众样本。

Study 1: 初始条目开发与筛选

目标: 从42个候选条目中筛选出与客观计算能力高度相关的条目。

条目开发过程:

首先组织15人焦点小组进行条目生成，围绕4个假设维度：(1) 数学任务经验（experience）；(2) 感知认知能力（ability）——即被试认为自己多快、多好地完成数学任务；(3) 对数学任务的舒适度与兴趣（interest）；(4) 对数字信息呈现方式的偏好（preference）。
焦点小组产生近100个条目，研究者共识选出42个措辞清晰、相关性强的条目。

客观计算能力对照: 使用Lipkus等人量表的5题改编版（频率-百分比互转、风险翻倍计算、赔率-频率转换）。

数据分析:

探索性因子分析（最大似然估计，Promax旋转）检验42个条目的因子结构
计算各因子复合得分与客观计算能力总分的Pearson相关
选取与客观计算能力相关最高的个别条目组成初步量表

要素	内容
样本	N=364，来自大学医院和退伍军人医院等候区
人口学	46%女性，91%白人，平均年龄50岁(SD=16.4)，教育多样（21%高中及以下，44%部分大学，33%学士及以上）
结果	因子分析确认experience、interest、ability三个因子（preference条目未聚合）；ability和preference条目与客观计算能力相关最强；筛选出6个条目组成初步SNS（pSNS）
信度	pSNS: alpha=0.84；客观量表: alpha=0.66 (KR-20)
效度	pSNS与客观计算能力相关r=0.47 (p<0.01)；校正衰减后r=0.63
缺失数据	客观量表: 2.69%-17.0%/题；SNS: 0.3%-0.8%/题

Study 2: 偏好维度扩展与最终量表确定

目标: 检验pSNS的6个条目并新增7个偏好维度条目，确定最终8题SNS。

要素	内容
样本	N=287，仅来自退伍军人医院（教育和种族更多样化，计算能力更低：4.06 vs. 4.59）
人口学	44%女性，72%白人，平均年龄58岁(SD=13.5)，38%高中及以下，52%部分大学，10%学士及以上
客观对照	使用完整Lipkus等人11题量表（未修改）
结果	7个新偏好条目与客观计算能力的相关范围0.09-0.30；保留原2个偏好条目，新增2个最优偏好条目（天气预报呈现偏好、数字信息有用性），最终形成8题SNS
最终SNS构成	4题能力子量表（分数、百分比、15%小费、25%折扣的自评能力）+ 4题偏好子量表（表格图表有用性、文字vs.数字偏好、天气预报呈现偏好、数字信息有用性）
信度	SNS: alpha=0.82；客观量表: alpha=0.75
效度	SNS与客观计算能力r=0.53 (p<0.01)；校正衰减后r=0.68；能力子量表校正r=0.60；偏好子量表校正r=0.56
描述统计	SNS均值4.03 (SD=1.04)，范围1.00-6.00，近似正态分布（偏度-0.36）

Study 3: 被试体验比较

目标: 实证检验SNS相比客观计算能力量表在被试体验方面的优势。

要素	内容
样本	N=52，来自大学医院餐厅
设计	被试间随机分配：11题Lipkus客观量表 (n=25) vs. 8题SNS (n=27)
测量	完成时间（秒表计时）+ 4项情绪反应（享受、烦恼、压力、沮丧，6点Likert量表）+ 是否愿意参加类似后续研究（是/否）
分析方法	t检验（时间与情绪评分）、逻辑回归（参与意愿）

维度2：理论模型

理论背景

本文不构建正式数学模型，而是基于以下理论逻辑开发测量工具：

核心问题: 患者需要理解治疗方案的风险与收益才能做出知情决策，但大量患者因计算能力不足而难以理解这些信息。美国成人中22%的定量素养处于最低两级（仅能解决单步算术题），即使51%的高中毕业生也在此水平。

现有测量的不足:

客观测量的厌恶性: 类似数学考试的客观题让被试感到不快，导致负面反馈
完成率问题: 厌恶情绪可能降低完成率，增加纵向研究的流失率
施测方式限制: 客观题在电话和网络调查中存在困难——电话中认知负荷过高，网络上被试可能使用计算器或求助他人

SNS的设计理念: 以自我评估（self-assessment）替代数学测试，通过两个维度捕捉计算能力：

能力维度（Ability）: 个体对自身执行各种数学运算能力的主观评估（"你觉得自己做XX有多好？"）
偏好维度（Preference）: 个体对数字信息呈现方式的偏好（偏好数字而非文字描述的人倾向于具有更高的计算能力）

条目筛选的统计标准

主要标准: 各条目与Lipkus等人客观计算能力量表的Pearson双变量相关系数
辅助标准: 探索性因子分析确定的因子结构、Cronbach alpha内部一致性
衰减校正: 使用Pedhazur (1997) 公式校正因两量表内部信度不完美导致的相关系数低估
缺失数据处理: 客观量表将空白答案编码为错误（Lipkus方法论），SNS使用已完成条目的均值插补（需完成半数以上条目）；另用MCMC多重插补法验证结果稳健性

维度3：核心发现

主要发现

发现1: SNS与客观计算能力量表具有较高相关性

Study 1: pSNS（6题）与5题客观量表r=0.47 (p<0.01)，校正后r=0.63
Study 2: 最终SNS（8题）与11题Lipkus量表r=0.53 (p<0.01)，校正后r=0.68
能力子量表校正相关r=0.60，偏好子量表校正相关r=0.56
MCMC多重插补法验证：Study 1中5次插补相关r=0.41-0.44（vs.缺失编码法r=0.47）；Study 2中r=0.49-0.51（vs. r=0.53），结果高度一致

发现2: SNS完成速度显著更快

SNS平均完成时间: 5.03分钟 (SD=1.79) vs. 客观量表: 7.49分钟 (SD=3.17)，差异高度显著 (t=3.52, p<0.01)
平均每题时间: SNS 24秒 vs. 客观量表 31秒 (t=2.41, p<0.05)

发现3: SNS引发的负面情绪显著更低

压力评分: SNS 1.62 (SD=0.90) vs. 客观量表 2.69 (SD=1.38)，p<0.01
沮丧评分: SNS 1.92 (SD=1.32) vs. 客观量表 2.88 (SD=1.33)，p<0.05
烦恼评分: SNS 2.42 (SD=1.36) vs. 客观量表 3.42 (SD=1.47)，p<0.01
享受评分差异不显著: SNS 4.27 vs. 客观量表 3.96 (p>0.10)

发现4: SNS大幅提高后续参与意愿

完成SNS后愿意参加类似研究: 50% vs. 完成客观量表后: 8%
优势比OR=11.00，95%CI=[2.14, 56.65]，p<0.05

发现5: SNS的缺失数据率远低于客观量表

Study 1: 客观量表缺失率2.69%-17.0%/题 vs. SNS 0.3%-0.8%/题
Study 2: 客观量表缺失率1.9%-20.7%/题 vs. SNS 0.0%-1.6%/题

量表心理测量学特性

指标	Study 1 (pSNS)	Study 2 (最终SNS)
条目数	6	8
Cronbach alpha	0.84	0.82
与客观量表原始相关	0.47	0.53
校正衰减后相关	0.63	0.68
均值	--	4.03
标准差	--	1.04
偏度	--	-0.36

局限性

使用便利样本，纸笔问卷可能排除低读写能力个体
可能遗漏与计算能力相关的其他构念
条目筛选仅依赖与Lipkus量表的相关这一单一标准
客观计算能力对照量表在三项研究中有所变化（Study 1使用5题改编版，Study 2-3使用完整11题版）
Study 3样本量较小(N=52)，统计效力有限

维度6：与其他文献的关系

在健康素养与风险沟通研究中的位置

本文处于计算能力测量与健康决策中的风险沟通两支文献的交叉点：

健康素养/读写能力                    计算能力/数字素养
Baker et al. (1997, 1998)         Schwartz et al. (1997)
TOFHLA (Parker et al. 1995)      Lipkus et al. (2001)
        |                               |
        v                               v
  功能性健康素养测量        <--本文-->   主观计算能力测量
  (客观表现测试)             桥接       (自评量表, SNS)
        |                               |
        v                               v
  临床应用                        风险理解与医疗决策
  (用药依从、就医行为)            Woloshin et al. (2000, 2001)

核心对话文献

Schwartz et al. (1997): 首创3题客观计算能力测量，发现低计算能力女性更高估乳腺钼靶检查的收益——本文以此为出发点，认为需要更友好的替代测量工具
Lipkus et al. (2001): 在Schwartz 3题基础上扩展为11题客观量表，成为健康领域最广泛使用的计算能力测量——本文以此为SNS开发的效标参照
TOFHLA (Parker et al. 1995; Baker et al. 1999): 功能性健康素养测试，包含读写和计算两部分——本文认为其计算部分过于简单（仅测试用药说明理解等），无法推广至风险沟通等复杂数字任务
Zikmund-Fisher et al. (2007, 配套文章): 报告SNS的预测效度验证——低主观计算能力个体在风险沟通理解和效用引出任务中表现更差

独特贡献

首创主观计算能力量表: 首次系统开发并验证了基于自我评估的计算能力测量工具，为该领域提供了客观测量之外的替代选择
双维度结构: 发现"能力自评"和"数字信息偏好"两个维度共同预测客观计算能力，后者是全新发现——偏好数字而非文字描述的人确实计算能力更强
实证证明测量体验差异: 首次用随机对照实验量化了客观vs.主观计算能力量表在被试负担（时间、情绪、后续参与意愿、缺失率）方面的巨大差异
实用价值: SNS特别适用于电话调查和网络调查（低认知负荷、无法作弊），以及需要降低被试负担的纵向研究

研究主题标签

#numeracy #subjective_numeracy #risk_communication #health_literacy #scale_development #measurement #medical_decision_making #self_assessment

维度4：变量概览

自变量（量表条目）

SNS能力子量表（4题，1-6分Likert）:

Q1: 你做涉及分数（fractions）运算有多好？
Q2: 你做涉及百分比（percentages）运算有多好？
Q3: 你计算餐厅账单15%小费的能力有多好？
Q4: 你计算商品25%折扣的能力有多好？

SNS偏好子量表（4题，1-6分Likert）:

Q5: 在阅读报刊时，你觉得表格图表（tables and graphs）的有用程度
Q6: 在阅读医生信息时，偏好用文字描述还是用数字（words vs. numbers）
Q7: 偏好天气预报使用百分比"30%降雨概率"还是文字"少量降雨"
Q8: 数字信息（如风险百分比）对你的有用程度

因变量

客观计算能力：Lipkus等人（2001）11题量表（含Schwartz 3题），涵盖频率-百分比互转、风险计算、赔率换算
被试体验（Study 3）：完成时间（秒表）、4项情绪反应（享受/烦恼/压力/沮丧，6点Likert）、是否愿参加类似研究（二项）
缺失数据率：每题未作答比例

关键参数

焦点小组：15人；初始条目池：~100→筛选42条
Study 1：N=364；Study 2：N=287；Study 3：N=52
Cronbach α：SNS=0.82-0.84，客观量表=0.66-0.75
衰减校正使用Pedhazur (1997)公式

维度5：局限性

样本代表性不足：均为便利样本（医院候诊区/餐厅），纸笔问卷可能排除低读写能力个体
构念遗漏风险：量表开发仅围绕experience/ability/interest/preference 4个先验维度，可能遗漏与计算能力相关的其他构念
单一效标依赖：条目筛选仅依据与Lipkus量表的Pearson相关，未使用多种效标交叉验证
客观对照量表不一致：Study 1使用5题改编版，Study 2-3使用完整11题版，跨研究比较受限
Study 3统计效力有限：N=52，体验比较结果需更大样本复证
自我评估的潜在偏差：未充分检验社会期许偏差（social desirability bias）、过度自信对SNS评分的影响
未直接验证预测效度：本文仅建立concurrent validity，预测效度由配套文章Zikmund-Fisher et al. (2007) 单独报告

维度6：与其他文献的关系

直接对话文献

本文的客观计算能力效标使用Lipkus_2001_NumeracyScale的11题量表，并继承Schwartz et al. (1997)首创的3题计算能力测量传统
配套验证文章ZikmundFisher_2007_SNS_Validation报告SNS的预测效度——低主观计算能力个体在风险沟通理解和效用引出任务中表现更差

在计算能力测量谱系中的位置

客观测量传统                       本文：主观测量创新
Schwartz (1997, 3题) →
Lipkus (2001, 11题) → 主导地位
                      ↓                ↓
                   被试厌恶/缺失      Fagerlin (2007, 8题SNS)
                                       ↓
                               后续衍生：Weller (2013, Rasch缩减版)
                                       Peters (2006/2012, 应用扩展)

在行为决策研究中的影响

健康决策：风险沟通、医疗知情同意、效用引出
金融素养：Lusardi_2012_NumeracyFinancialLiteracy、Skagerlund_2018_FinancialLiteracy_Numeracy、Darriet_2021_FinancialLiteracy_Numeracy
行为经济学实验：作为计算能力的协变量控制（如对Bayesian updating任务表现的解释）

研究主题标签

#numeracy #subjective_numeracy #scale_development #measurement #self_assessment #risk_communication #health_literacy #medical_decision_making

维度7：可拓展的研究方向

跨文化与跨语言验证：将SNS翻译并在非英语国家、不同教育体系下重新验证因子结构与效度
与认知能力量表的关系：探究SNS与CRT（Cognitive Reflection Test）、Raven推理测验等的差异化预测力
金融领域应用：将SNS引入家庭金融决策研究（养老储蓄、贷款理解、保险购买），检验其相比金融素养量表的增量解释力
改进版SNS：缩减条目数（如3-4题极简版）以适用于大规模面板调查；针对不同认知群体（老年人、低教育者）开发自适应版本
SNS在贝叶斯更新实验中的应用：检验主观计算能力与Bayesian updating偏差（base-rate neglect, conservatism）的关系
数字呈现偏好的内生性：研究"偏好数字而非文字"这一偏好本身的形成机制——是认知能力的结果还是教育/文化的产物
数字与电话调查中的最优实施方案：比较SNS在不同施测模式下的等价性（measurement invariance）

关键结论

自我评估可有效近似客观计算能力：8题SNS与11题Lipkus客观量表相关r=0.53（校正后0.68），证明在不需要精确测量的研究场景下，主观量表是客观测试的有效替代
双维度结构是关键创新：能力自评（"你做百分比有多好"）+ 偏好维度（"偏好数字vs.文字"）共同预测客观计算能力，后者揭示了对数字呈现的偏好本身蕴含计算能力信息
测量体验的实质性改善：SNS完成时间减少33%、压力评分降低40%、后续参与意愿提高6倍以上、缺失率降低10倍，对纵向研究和大规模调查具有重大实践价值
方法选择有情境依赖：当研究需要精确个体计算能力分类时仍应使用客观量表；当作为协变量、在远程施测、或需降低被试负担时SNS更优

Fagerlin_2007_SubjectiveNumeracy

Measuring Numeracy without a Math Test: Development of the Subjective Numeracy Scale

元信息

一句话总结

研究问题

核心贡献

维度1：实验设计分析

整体研究架构

Study 1: 初始条目开发与筛选

Study 2: 偏好维度扩展与最终量表确定

Study 3: 被试体验比较

维度2：理论模型

理论背景

条目筛选的统计标准

维度3：核心发现

主要发现

量表心理测量学特性

局限性

维度6：与其他文献的关系

在健康素养与风险沟通研究中的位置

核心对话文献

独特贡献

研究主题标签

维度4：变量概览

自变量（量表条目）

因变量

关键参数

维度5：局限性

维度6：与其他文献的关系

直接对话文献

在计算能力测量谱系中的位置

在行为决策研究中的影响

研究主题标签

维度7：可拓展的研究方向

关键结论