Fagerlin_2007_SubjectiveNumeracy
Measuring Numeracy without a Math Test: Development of the Subjective Numeracy Scale
元信息
- 作者: Angela Fagerlin, Brian J. Zikmund-Fisher, Peter A. Ubel, Aleksandra Jankovic, Holly A. Derry, Dylan M. Smith
- 年份: 2007
- 期刊/来源: Medical Decision Making, 27:672-680
- 关键词: numeracy, risk communication, decision making, literacy, measurement
- DOI/链接: 10.1177/0272989X07304449
一句话总结
通过3项研究开发并验证了8题主观计算能力量表(Subjective Numeracy Scale, SNS),证明其与客观计算能力高度相关(r=0.53,校正后0.68),同时显著降低被试负担、负面情绪与缺失数据率。
研究问题
如何在不让被试做"数学考试"的前提下有效测量计算能力(numeracy),从而在医疗风险沟通研究中既保证测量效度,又减少被试厌恶情绪、避免电话/网络调查的施测困难?
核心贡献
- 方法学创新:首次系统化提出基于自我评估(self-assessment)的计算能力测量框架,以"能力自评"和"数字信息呈现偏好"双维度替代传统客观测试
- 量表开发:通过3项独立研究、约700名被试,最终确定8题SNS(4题能力 + 4题偏好),具备良好信度(α=0.82)和效标效度
- 实证验证测量优越性:以随机对照实验证明SNS在完成时间、负面情绪、后续参与意愿、缺失数据率等被试体验维度上均显著优于客观量表
- 应用价值:为电话调查、网络调查、纵向研究等场景提供了可行的计算能力测量工具
维度1:实验设计分析
整体研究架构
本文通过3项研究(Study 1-3)逐步开发并验证了主观计算能力量表(Subjective Numeracy Scale, SNS)。研究采用纸笔问卷形式,在医院等候区招募一般公众样本。
Study 1: 初始条目开发与筛选
目标: 从42个候选条目中筛选出与客观计算能力高度相关的条目。
条目开发过程:
- 首先组织15人焦点小组进行条目生成,围绕4个假设维度:(1) 数学任务经验(experience);(2) 感知认知能力(ability)——即被试认为自己多快、多好地完成数学任务;(3) 对数学任务的舒适度与兴趣(interest);(4) 对数字信息呈现方式的偏好(preference)。
- 焦点小组产生近100个条目,研究者共识选出42个措辞清晰、相关性强的条目。
客观计算能力对照: 使用Lipkus等人量表的5题改编版(频率-百分比互转、风险翻倍计算、赔率-频率转换)。
数据分析:
- 探索性因子分析(最大似然估计,Promax旋转)检验42个条目的因子结构
- 计算各因子复合得分与客观计算能力总分的Pearson相关
- 选取与客观计算能力相关最高的个别条目组成初步量表
| 要素 | 内容 |
|---|---|
| 样本 | N=364,来自大学医院和退伍军人医院等候区 |
| 人口学 | 46%女性,91%白人,平均年龄50岁(SD=16.4),教育多样(21%高中及以下,44%部分大学,33%学士及以上) |
| 结果 | 因子分析确认experience、interest、ability三个因子(preference条目未聚合);ability和preference条目与客观计算能力相关最强;筛选出6个条目组成初步SNS(pSNS) |
| 信度 | pSNS: alpha=0.84;客观量表: alpha=0.66 (KR-20) |
| 效度 | pSNS与客观计算能力相关r=0.47 (p<0.01);校正衰减后r=0.63 |
| 缺失数据 | 客观量表: 2.69%-17.0%/题;SNS: 0.3%-0.8%/题 |
Study 2: 偏好维度扩展与最终量表确定
目标: 检验pSNS的6个条目并新增7个偏好维度条目,确定最终8题SNS。
| 要素 | 内容 |
|---|---|
| 样本 | N=287,仅来自退伍军人医院(教育和种族更多样化,计算能力更低:4.06 vs. 4.59) |
| 人口学 | 44%女性,72%白人,平均年龄58岁(SD=13.5),38%高中及以下,52%部分大学,10%学士及以上 |
| 客观对照 | 使用完整Lipkus等人11题量表(未修改) |
| 结果 | 7个新偏好条目与客观计算能力的相关范围0.09-0.30;保留原2个偏好条目,新增2个最优偏好条目(天气预报呈现偏好、数字信息有用性),最终形成8题SNS |
| 最终SNS构成 | 4题能力子量表(分数、百分比、15%小费、25%折扣的自评能力)+ 4题偏好子量表(表格图表有用性、文字vs.数字偏好、天气预报呈现偏好、数字信息有用性) |
| 信度 | SNS: alpha=0.82;客观量表: alpha=0.75 |
| 效度 | SNS与客观计算能力r=0.53 (p<0.01);校正衰减后r=0.68;能力子量表校正r=0.60;偏好子量表校正r=0.56 |
| 描述统计 | SNS均值4.03 (SD=1.04),范围1.00-6.00,近似正态分布(偏度-0.36) |
Study 3: 被试体验比较
目标: 实证检验SNS相比客观计算能力量表在被试体验方面的优势。
| 要素 | 内容 |
|---|---|
| 样本 | N=52,来自大学医院餐厅 |
| 设计 | 被试间随机分配:11题Lipkus客观量表 (n=25) vs. 8题SNS (n=27) |
| 测量 | 完成时间(秒表计时)+ 4项情绪反应(享受、烦恼、压力、沮丧,6点Likert量表)+ 是否愿意参加类似后续研究(是/否) |
| 分析方法 | t检验(时间与情绪评分)、逻辑回归(参与意愿) |
维度2:理论模型
理论背景
本文不构建正式数学模型,而是基于以下理论逻辑开发测量工具:
核心问题: 患者需要理解治疗方案的风险与收益才能做出知情决策,但大量患者因计算能力不足而难以理解这些信息。美国成人中22%的定量素养处于最低两级(仅能解决单步算术题),即使51%的高中毕业生也在此水平。
现有测量的不足:
- 客观测量的厌恶性: 类似数学考试的客观题让被试感到不快,导致负面反馈
- 完成率问题: 厌恶情绪可能降低完成率,增加纵向研究的流失率
- 施测方式限制: 客观题在电话和网络调查中存在困难——电话中认知负荷过高,网络上被试可能使用计算器或求助他人
SNS的设计理念: 以自我评估(self-assessment)替代数学测试,通过两个维度捕捉计算能力:
- 能力维度(Ability): 个体对自身执行各种数学运算能力的主观评估("你觉得自己做XX有多好?")
- 偏好维度(Preference): 个体对数字信息呈现方式的偏好(偏好数字而非文字描述的人倾向于具有更高的计算能力)
条目筛选的统计标准
- 主要标准: 各条目与Lipkus等人客观计算能力量表的Pearson双变量相关系数
- 辅助标准: 探索性因子分析确定的因子结构、Cronbach alpha内部一致性
- 衰减校正: 使用Pedhazur (1997) 公式校正因两量表内部信度不完美导致的相关系数低估
- 缺失数据处理: 客观量表将空白答案编码为错误(Lipkus方法论),SNS使用已完成条目的均值插补(需完成半数以上条目);另用MCMC多重插补法验证结果稳健性
维度3:核心发现
主要发现
发现1: SNS与客观计算能力量表具有较高相关性
- Study 1: pSNS(6题)与5题客观量表r=0.47 (p<0.01),校正后r=0.63
- Study 2: 最终SNS(8题)与11题Lipkus量表r=0.53 (p<0.01),校正后r=0.68
- 能力子量表校正相关r=0.60,偏好子量表校正相关r=0.56
- MCMC多重插补法验证:Study 1中5次插补相关r=0.41-0.44(vs.缺失编码法r=0.47);Study 2中r=0.49-0.51(vs. r=0.53),结果高度一致
发现2: SNS完成速度显著更快
- SNS平均完成时间: 5.03分钟 (SD=1.79) vs. 客观量表: 7.49分钟 (SD=3.17),差异高度显著 (t=3.52, p<0.01)
- 平均每题时间: SNS 24秒 vs. 客观量表 31秒 (t=2.41, p<0.05)
发现3: SNS引发的负面情绪显著更低
- 压力评分: SNS 1.62 (SD=0.90) vs. 客观量表 2.69 (SD=1.38),p<0.01
- 沮丧评分: SNS 1.92 (SD=1.32) vs. 客观量表 2.88 (SD=1.33),p<0.05
- 烦恼评分: SNS 2.42 (SD=1.36) vs. 客观量表 3.42 (SD=1.47),p<0.01
- 享受评分差异不显著: SNS 4.27 vs. 客观量表 3.96 (p>0.10)
发现4: SNS大幅提高后续参与意愿
- 完成SNS后愿意参加类似研究: 50% vs. 完成客观量表后: 8%
- 优势比OR=11.00,95%CI=[2.14, 56.65],p<0.05
发现5: SNS的缺失数据率远低于客观量表
- Study 1: 客观量表缺失率2.69%-17.0%/题 vs. SNS 0.3%-0.8%/题
- Study 2: 客观量表缺失率1.9%-20.7%/题 vs. SNS 0.0%-1.6%/题
量表心理测量学特性
| 指标 | Study 1 (pSNS) | Study 2 (最终SNS) |
|---|---|---|
| 条目数 | 6 | 8 |
| Cronbach alpha | 0.84 | 0.82 |
| 与客观量表原始相关 | 0.47 | 0.53 |
| 校正衰减后相关 | 0.63 | 0.68 |
| 均值 | -- | 4.03 |
| 标准差 | -- | 1.04 |
| 偏度 | -- | -0.36 |
局限性
- 使用便利样本,纸笔问卷可能排除低读写能力个体
- 可能遗漏与计算能力相关的其他构念
- 条目筛选仅依赖与Lipkus量表的相关这一单一标准
- 客观计算能力对照量表在三项研究中有所变化(Study 1使用5题改编版,Study 2-3使用完整11题版)
- Study 3样本量较小(N=52),统计效力有限
维度6:与其他文献的关系
在健康素养与风险沟通研究中的位置
本文处于计算能力测量与健康决策中的风险沟通两支文献的交叉点:
健康素养/读写能力 计算能力/数字素养
Baker et al. (1997, 1998) Schwartz et al. (1997)
TOFHLA (Parker et al. 1995) Lipkus et al. (2001)
| |
v v
功能性健康素养测量 <--本文--> 主观计算能力测量
(客观表现测试) 桥接 (自评量表, SNS)
| |
v v
临床应用 风险理解与医疗决策
(用药依从、就医行为) Woloshin et al. (2000, 2001)
核心对话文献
- Schwartz et al. (1997): 首创3题客观计算能力测量,发现低计算能力女性更高估乳腺钼靶检查的收益——本文以此为出发点,认为需要更友好的替代测量工具
- Lipkus et al. (2001): 在Schwartz 3题基础上扩展为11题客观量表,成为健康领域最广泛使用的计算能力测量——本文以此为SNS开发的效标参照
- TOFHLA (Parker et al. 1995; Baker et al. 1999): 功能性健康素养测试,包含读写和计算两部分——本文认为其计算部分过于简单(仅测试用药说明理解等),无法推广至风险沟通等复杂数字任务
- Zikmund-Fisher et al. (2007, 配套文章): 报告SNS的预测效度验证——低主观计算能力个体在风险沟通理解和效用引出任务中表现更差
独特贡献
- 首创主观计算能力量表: 首次系统开发并验证了基于自我评估的计算能力测量工具,为该领域提供了客观测量之外的替代选择
- 双维度结构: 发现"能力自评"和"数字信息偏好"两个维度共同预测客观计算能力,后者是全新发现——偏好数字而非文字描述的人确实计算能力更强
- 实证证明测量体验差异: 首次用随机对照实验量化了客观vs.主观计算能力量表在被试负担(时间、情绪、后续参与意愿、缺失率)方面的巨大差异
- 实用价值: SNS特别适用于电话调查和网络调查(低认知负荷、无法作弊),以及需要降低被试负担的纵向研究
研究主题标签
#numeracy #subjective_numeracy #risk_communication #health_literacy #scale_development #measurement #medical_decision_making #self_assessment
维度4:变量概览
自变量(量表条目)
SNS能力子量表(4题,1-6分Likert):
- Q1: 你做涉及分数(fractions)运算有多好?
- Q2: 你做涉及百分比(percentages)运算有多好?
- Q3: 你计算餐厅账单15%小费的能力有多好?
- Q4: 你计算商品25%折扣的能力有多好?
SNS偏好子量表(4题,1-6分Likert):
- Q5: 在阅读报刊时,你觉得表格图表(tables and graphs)的有用程度
- Q6: 在阅读医生信息时,偏好用文字描述还是用数字(words vs. numbers)
- Q7: 偏好天气预报使用百分比"30%降雨概率"还是文字"少量降雨"
- Q8: 数字信息(如风险百分比)对你的有用程度
因变量
- 客观计算能力:Lipkus等人(2001)11题量表(含Schwartz 3题),涵盖频率-百分比互转、风险计算、赔率换算
- 被试体验(Study 3):完成时间(秒表)、4项情绪反应(享受/烦恼/压力/沮丧,6点Likert)、是否愿参加类似研究(二项)
- 缺失数据率:每题未作答比例
关键参数
- 焦点小组:15人;初始条目池:~100→筛选42条
- Study 1:N=364;Study 2:N=287;Study 3:N=52
- Cronbach α:SNS=0.82-0.84,客观量表=0.66-0.75
- 衰减校正使用Pedhazur (1997)公式
维度5:局限性
- 样本代表性不足:均为便利样本(医院候诊区/餐厅),纸笔问卷可能排除低读写能力个体
- 构念遗漏风险:量表开发仅围绕experience/ability/interest/preference 4个先验维度,可能遗漏与计算能力相关的其他构念
- 单一效标依赖:条目筛选仅依据与Lipkus量表的Pearson相关,未使用多种效标交叉验证
- 客观对照量表不一致:Study 1使用5题改编版,Study 2-3使用完整11题版,跨研究比较受限
- Study 3统计效力有限:N=52,体验比较结果需更大样本复证
- 自我评估的潜在偏差:未充分检验社会期许偏差(social desirability bias)、过度自信对SNS评分的影响
- 未直接验证预测效度:本文仅建立concurrent validity,预测效度由配套文章Zikmund-Fisher et al. (2007) 单独报告
维度6:与其他文献的关系
直接对话文献
- 本文的客观计算能力效标使用Lipkus_2001_NumeracyScale的11题量表,并继承Schwartz et al. (1997)首创的3题计算能力测量传统
- 配套验证文章ZikmundFisher_2007_SNS_Validation报告SNS的预测效度——低主观计算能力个体在风险沟通理解和效用引出任务中表现更差
在计算能力测量谱系中的位置
客观测量传统 本文:主观测量创新
Schwartz (1997, 3题) →
Lipkus (2001, 11题) → 主导地位
↓ ↓
被试厌恶/缺失 Fagerlin (2007, 8题SNS)
↓
后续衍生:Weller (2013, Rasch缩减版)
Peters (2006/2012, 应用扩展)
在行为决策研究中的影响
- 健康决策:风险沟通、医疗知情同意、效用引出
- 金融素养:Lusardi_2012_NumeracyFinancialLiteracy、Skagerlund_2018_FinancialLiteracy_Numeracy、Darriet_2021_FinancialLiteracy_Numeracy
- 行为经济学实验:作为计算能力的协变量控制(如对Bayesian updating任务表现的解释)
研究主题标签
#numeracy #subjective_numeracy #scale_development #measurement #self_assessment #risk_communication #health_literacy #medical_decision_making
维度7:可拓展的研究方向
- 跨文化与跨语言验证:将SNS翻译并在非英语国家、不同教育体系下重新验证因子结构与效度
- 与认知能力量表的关系:探究SNS与CRT(Cognitive Reflection Test)、Raven推理测验等的差异化预测力
- 金融领域应用:将SNS引入家庭金融决策研究(养老储蓄、贷款理解、保险购买),检验其相比金融素养量表的增量解释力
- 改进版SNS:缩减条目数(如3-4题极简版)以适用于大规模面板调查;针对不同认知群体(老年人、低教育者)开发自适应版本
- SNS在贝叶斯更新实验中的应用:检验主观计算能力与Bayesian updating偏差(base-rate neglect, conservatism)的关系
- 数字呈现偏好的内生性:研究"偏好数字而非文字"这一偏好本身的形成机制——是认知能力的结果还是教育/文化的产物
- 数字与电话调查中的最优实施方案:比较SNS在不同施测模式下的等价性(measurement invariance)
关键结论
- 自我评估可有效近似客观计算能力:8题SNS与11题Lipkus客观量表相关r=0.53(校正后0.68),证明在不需要精确测量的研究场景下,主观量表是客观测试的有效替代
- 双维度结构是关键创新:能力自评("你做百分比有多好")+ 偏好维度("偏好数字vs.文字")共同预测客观计算能力,后者揭示了对数字呈现的偏好本身蕴含计算能力信息
- 测量体验的实质性改善:SNS完成时间减少33%、压力评分降低40%、后续参与意愿提高6倍以上、缺失率降低10倍,对纵向研究和大规模调查具有重大实践价值
- 方法选择有情境依赖:当研究需要精确个体计算能力分类时仍应使用客观量表;当作为协变量、在远程施测、或需降低被试负担时SNS更优