Fagerlin_2007_SubjectiveNumeracy

更新于 2026/7/5

Measuring Numeracy without a Math Test: Development of the Subjective Numeracy Scale

元信息

  • 作者: Angela Fagerlin, Brian J. Zikmund-Fisher, Peter A. Ubel, Aleksandra Jankovic, Holly A. Derry, Dylan M. Smith
  • 年份: 2007
  • 期刊/来源: Medical Decision Making, 27:672-680
  • 关键词: numeracy, risk communication, decision making, literacy, measurement
  • DOI/链接: 10.1177/0272989X07304449

一句话总结

通过3项研究开发并验证了8题主观计算能力量表(Subjective Numeracy Scale, SNS),证明其与客观计算能力高度相关(r=0.53,校正后0.68),同时显著降低被试负担、负面情绪与缺失数据率。

研究问题

如何在不让被试做"数学考试"的前提下有效测量计算能力(numeracy),从而在医疗风险沟通研究中既保证测量效度,又减少被试厌恶情绪、避免电话/网络调查的施测困难?

核心贡献

  1. 方法学创新:首次系统化提出基于自我评估(self-assessment)的计算能力测量框架,以"能力自评"和"数字信息呈现偏好"双维度替代传统客观测试
  2. 量表开发:通过3项独立研究、约700名被试,最终确定8题SNS(4题能力 + 4题偏好),具备良好信度(α=0.82)和效标效度
  3. 实证验证测量优越性:以随机对照实验证明SNS在完成时间、负面情绪、后续参与意愿、缺失数据率等被试体验维度上均显著优于客观量表
  4. 应用价值:为电话调查、网络调查、纵向研究等场景提供了可行的计算能力测量工具

维度1:实验设计分析

整体研究架构

本文通过3项研究(Study 1-3)逐步开发并验证了主观计算能力量表(Subjective Numeracy Scale, SNS)。研究采用纸笔问卷形式,在医院等候区招募一般公众样本。

Study 1: 初始条目开发与筛选

目标: 从42个候选条目中筛选出与客观计算能力高度相关的条目。

条目开发过程:

  1. 首先组织15人焦点小组进行条目生成,围绕4个假设维度:(1) 数学任务经验(experience);(2) 感知认知能力(ability)——即被试认为自己多快、多好地完成数学任务;(3) 对数学任务的舒适度与兴趣(interest);(4) 对数字信息呈现方式的偏好(preference)。
  2. 焦点小组产生近100个条目,研究者共识选出42个措辞清晰、相关性强的条目。

客观计算能力对照: 使用Lipkus等人量表的5题改编版(频率-百分比互转、风险翻倍计算、赔率-频率转换)。

数据分析:

  • 探索性因子分析(最大似然估计,Promax旋转)检验42个条目的因子结构
  • 计算各因子复合得分与客观计算能力总分的Pearson相关
  • 选取与客观计算能力相关最高的个别条目组成初步量表
要素 内容
样本 N=364,来自大学医院和退伍军人医院等候区
人口学 46%女性,91%白人,平均年龄50岁(SD=16.4),教育多样(21%高中及以下,44%部分大学,33%学士及以上)
结果 因子分析确认experience、interest、ability三个因子(preference条目未聚合);ability和preference条目与客观计算能力相关最强;筛选出6个条目组成初步SNS(pSNS)
信度 pSNS: alpha=0.84;客观量表: alpha=0.66 (KR-20)
效度 pSNS与客观计算能力相关r=0.47 (p<0.01);校正衰减后r=0.63
缺失数据 客观量表: 2.69%-17.0%/题;SNS: 0.3%-0.8%/题

Study 2: 偏好维度扩展与最终量表确定

目标: 检验pSNS的6个条目并新增7个偏好维度条目,确定最终8题SNS。

要素 内容
样本 N=287,仅来自退伍军人医院(教育和种族更多样化,计算能力更低:4.06 vs. 4.59)
人口学 44%女性,72%白人,平均年龄58岁(SD=13.5),38%高中及以下,52%部分大学,10%学士及以上
客观对照 使用完整Lipkus等人11题量表(未修改)
结果 7个新偏好条目与客观计算能力的相关范围0.09-0.30;保留原2个偏好条目,新增2个最优偏好条目(天气预报呈现偏好、数字信息有用性),最终形成8题SNS
最终SNS构成 4题能力子量表(分数、百分比、15%小费、25%折扣的自评能力)+ 4题偏好子量表(表格图表有用性、文字vs.数字偏好、天气预报呈现偏好、数字信息有用性)
信度 SNS: alpha=0.82;客观量表: alpha=0.75
效度 SNS与客观计算能力r=0.53 (p<0.01);校正衰减后r=0.68;能力子量表校正r=0.60;偏好子量表校正r=0.56
描述统计 SNS均值4.03 (SD=1.04),范围1.00-6.00,近似正态分布(偏度-0.36)

Study 3: 被试体验比较

目标: 实证检验SNS相比客观计算能力量表在被试体验方面的优势。

要素 内容
样本 N=52,来自大学医院餐厅
设计 被试间随机分配:11题Lipkus客观量表 (n=25) vs. 8题SNS (n=27)
测量 完成时间(秒表计时)+ 4项情绪反应(享受、烦恼、压力、沮丧,6点Likert量表)+ 是否愿意参加类似后续研究(是/否)
分析方法 t检验(时间与情绪评分)、逻辑回归(参与意愿)

维度2:理论模型

理论背景

本文不构建正式数学模型,而是基于以下理论逻辑开发测量工具:

核心问题: 患者需要理解治疗方案的风险与收益才能做出知情决策,但大量患者因计算能力不足而难以理解这些信息。美国成人中22%的定量素养处于最低两级(仅能解决单步算术题),即使51%的高中毕业生也在此水平。

现有测量的不足:

  1. 客观测量的厌恶性: 类似数学考试的客观题让被试感到不快,导致负面反馈
  2. 完成率问题: 厌恶情绪可能降低完成率,增加纵向研究的流失率
  3. 施测方式限制: 客观题在电话和网络调查中存在困难——电话中认知负荷过高,网络上被试可能使用计算器或求助他人

SNS的设计理念: 以自我评估(self-assessment)替代数学测试,通过两个维度捕捉计算能力:

  1. 能力维度(Ability): 个体对自身执行各种数学运算能力的主观评估("你觉得自己做XX有多好?")
  2. 偏好维度(Preference): 个体对数字信息呈现方式的偏好(偏好数字而非文字描述的人倾向于具有更高的计算能力)

条目筛选的统计标准

  • 主要标准: 各条目与Lipkus等人客观计算能力量表的Pearson双变量相关系数
  • 辅助标准: 探索性因子分析确定的因子结构、Cronbach alpha内部一致性
  • 衰减校正: 使用Pedhazur (1997) 公式校正因两量表内部信度不完美导致的相关系数低估
  • 缺失数据处理: 客观量表将空白答案编码为错误(Lipkus方法论),SNS使用已完成条目的均值插补(需完成半数以上条目);另用MCMC多重插补法验证结果稳健性

维度3:核心发现

主要发现

发现1: SNS与客观计算能力量表具有较高相关性

  • Study 1: pSNS(6题)与5题客观量表r=0.47 (p<0.01),校正后r=0.63
  • Study 2: 最终SNS(8题)与11题Lipkus量表r=0.53 (p<0.01),校正后r=0.68
  • 能力子量表校正相关r=0.60,偏好子量表校正相关r=0.56
  • MCMC多重插补法验证:Study 1中5次插补相关r=0.41-0.44(vs.缺失编码法r=0.47);Study 2中r=0.49-0.51(vs. r=0.53),结果高度一致

发现2: SNS完成速度显著更快

  • SNS平均完成时间: 5.03分钟 (SD=1.79) vs. 客观量表: 7.49分钟 (SD=3.17),差异高度显著 (t=3.52, p<0.01)
  • 平均每题时间: SNS 24秒 vs. 客观量表 31秒 (t=2.41, p<0.05)

发现3: SNS引发的负面情绪显著更低

  • 压力评分: SNS 1.62 (SD=0.90) vs. 客观量表 2.69 (SD=1.38),p<0.01
  • 沮丧评分: SNS 1.92 (SD=1.32) vs. 客观量表 2.88 (SD=1.33),p<0.05
  • 烦恼评分: SNS 2.42 (SD=1.36) vs. 客观量表 3.42 (SD=1.47),p<0.01
  • 享受评分差异不显著: SNS 4.27 vs. 客观量表 3.96 (p>0.10)

发现4: SNS大幅提高后续参与意愿

  • 完成SNS后愿意参加类似研究: 50% vs. 完成客观量表后: 8%
  • 优势比OR=11.00,95%CI=[2.14, 56.65],p<0.05

发现5: SNS的缺失数据率远低于客观量表

  • Study 1: 客观量表缺失率2.69%-17.0%/题 vs. SNS 0.3%-0.8%/题
  • Study 2: 客观量表缺失率1.9%-20.7%/题 vs. SNS 0.0%-1.6%/题

量表心理测量学特性

指标 Study 1 (pSNS) Study 2 (最终SNS)
条目数 6 8
Cronbach alpha 0.84 0.82
与客观量表原始相关 0.47 0.53
校正衰减后相关 0.63 0.68
均值 -- 4.03
标准差 -- 1.04
偏度 -- -0.36

局限性

  1. 使用便利样本,纸笔问卷可能排除低读写能力个体
  2. 可能遗漏与计算能力相关的其他构念
  3. 条目筛选仅依赖与Lipkus量表的相关这一单一标准
  4. 客观计算能力对照量表在三项研究中有所变化(Study 1使用5题改编版,Study 2-3使用完整11题版)
  5. Study 3样本量较小(N=52),统计效力有限

维度6:与其他文献的关系

在健康素养与风险沟通研究中的位置

本文处于计算能力测量健康决策中的风险沟通两支文献的交叉点:

健康素养/读写能力                    计算能力/数字素养
Baker et al. (1997, 1998)         Schwartz et al. (1997)
TOFHLA (Parker et al. 1995)      Lipkus et al. (2001)
        |                               |
        v                               v
  功能性健康素养测量        <--本文-->   主观计算能力测量
  (客观表现测试)             桥接       (自评量表, SNS)
        |                               |
        v                               v
  临床应用                        风险理解与医疗决策
  (用药依从、就医行为)            Woloshin et al. (2000, 2001)

核心对话文献

  • Schwartz et al. (1997): 首创3题客观计算能力测量,发现低计算能力女性更高估乳腺钼靶检查的收益——本文以此为出发点,认为需要更友好的替代测量工具
  • Lipkus et al. (2001): 在Schwartz 3题基础上扩展为11题客观量表,成为健康领域最广泛使用的计算能力测量——本文以此为SNS开发的效标参照
  • TOFHLA (Parker et al. 1995; Baker et al. 1999): 功能性健康素养测试,包含读写和计算两部分——本文认为其计算部分过于简单(仅测试用药说明理解等),无法推广至风险沟通等复杂数字任务
  • Zikmund-Fisher et al. (2007, 配套文章): 报告SNS的预测效度验证——低主观计算能力个体在风险沟通理解和效用引出任务中表现更差

独特贡献

  1. 首创主观计算能力量表: 首次系统开发并验证了基于自我评估的计算能力测量工具,为该领域提供了客观测量之外的替代选择
  2. 双维度结构: 发现"能力自评"和"数字信息偏好"两个维度共同预测客观计算能力,后者是全新发现——偏好数字而非文字描述的人确实计算能力更强
  3. 实证证明测量体验差异: 首次用随机对照实验量化了客观vs.主观计算能力量表在被试负担(时间、情绪、后续参与意愿、缺失率)方面的巨大差异
  4. 实用价值: SNS特别适用于电话调查和网络调查(低认知负荷、无法作弊),以及需要降低被试负担的纵向研究

研究主题标签

#numeracy #subjective_numeracy #risk_communication #health_literacy #scale_development #measurement #medical_decision_making #self_assessment

维度4:变量概览

自变量(量表条目)

SNS能力子量表(4题,1-6分Likert):

  • Q1: 你做涉及分数(fractions)运算有多好?
  • Q2: 你做涉及百分比(percentages)运算有多好?
  • Q3: 你计算餐厅账单15%小费的能力有多好?
  • Q4: 你计算商品25%折扣的能力有多好?

SNS偏好子量表(4题,1-6分Likert):

  • Q5: 在阅读报刊时,你觉得表格图表(tables and graphs)的有用程度
  • Q6: 在阅读医生信息时,偏好用文字描述还是用数字(words vs. numbers)
  • Q7: 偏好天气预报使用百分比"30%降雨概率"还是文字"少量降雨"
  • Q8: 数字信息(如风险百分比)对你的有用程度

因变量

  • 客观计算能力:Lipkus等人(2001)11题量表(含Schwartz 3题),涵盖频率-百分比互转、风险计算、赔率换算
  • 被试体验(Study 3):完成时间(秒表)、4项情绪反应(享受/烦恼/压力/沮丧,6点Likert)、是否愿参加类似研究(二项)
  • 缺失数据率:每题未作答比例

关键参数

  • 焦点小组:15人;初始条目池:~100→筛选42条
  • Study 1:N=364;Study 2:N=287;Study 3:N=52
  • Cronbach α:SNS=0.82-0.84,客观量表=0.66-0.75
  • 衰减校正使用Pedhazur (1997)公式

维度5:局限性

  1. 样本代表性不足:均为便利样本(医院候诊区/餐厅),纸笔问卷可能排除低读写能力个体
  2. 构念遗漏风险:量表开发仅围绕experience/ability/interest/preference 4个先验维度,可能遗漏与计算能力相关的其他构念
  3. 单一效标依赖:条目筛选仅依据与Lipkus量表的Pearson相关,未使用多种效标交叉验证
  4. 客观对照量表不一致:Study 1使用5题改编版,Study 2-3使用完整11题版,跨研究比较受限
  5. Study 3统计效力有限:N=52,体验比较结果需更大样本复证
  6. 自我评估的潜在偏差:未充分检验社会期许偏差(social desirability bias)、过度自信对SNS评分的影响
  7. 未直接验证预测效度:本文仅建立concurrent validity,预测效度由配套文章Zikmund-Fisher et al. (2007) 单独报告

维度6:与其他文献的关系

直接对话文献

  • 本文的客观计算能力效标使用Lipkus_2001_NumeracyScale的11题量表,并继承Schwartz et al. (1997)首创的3题计算能力测量传统
  • 配套验证文章ZikmundFisher_2007_SNS_Validation报告SNS的预测效度——低主观计算能力个体在风险沟通理解和效用引出任务中表现更差

在计算能力测量谱系中的位置

客观测量传统                       本文:主观测量创新
Schwartz (1997, 3题) →
Lipkus (2001, 11题) → 主导地位
                      ↓                ↓
                   被试厌恶/缺失      Fagerlin (2007, 8题SNS)
                                       ↓
                               后续衍生:Weller (2013, Rasch缩减版)
                                       Peters (2006/2012, 应用扩展)

在行为决策研究中的影响

  • 健康决策:风险沟通、医疗知情同意、效用引出
  • 金融素养:Lusardi_2012_NumeracyFinancialLiteracy、Skagerlund_2018_FinancialLiteracy_Numeracy、Darriet_2021_FinancialLiteracy_Numeracy
  • 行为经济学实验:作为计算能力的协变量控制(如对Bayesian updating任务表现的解释)

研究主题标签

#numeracy #subjective_numeracy #scale_development #measurement #self_assessment #risk_communication #health_literacy #medical_decision_making

维度7:可拓展的研究方向

  1. 跨文化与跨语言验证:将SNS翻译并在非英语国家、不同教育体系下重新验证因子结构与效度
  2. 与认知能力量表的关系:探究SNS与CRT(Cognitive Reflection Test)、Raven推理测验等的差异化预测力
  3. 金融领域应用:将SNS引入家庭金融决策研究(养老储蓄、贷款理解、保险购买),检验其相比金融素养量表的增量解释力
  4. 改进版SNS:缩减条目数(如3-4题极简版)以适用于大规模面板调查;针对不同认知群体(老年人、低教育者)开发自适应版本
  5. SNS在贝叶斯更新实验中的应用:检验主观计算能力与Bayesian updating偏差(base-rate neglect, conservatism)的关系
  6. 数字呈现偏好的内生性:研究"偏好数字而非文字"这一偏好本身的形成机制——是认知能力的结果还是教育/文化的产物
  7. 数字与电话调查中的最优实施方案:比较SNS在不同施测模式下的等价性(measurement invariance)

关键结论

  1. 自我评估可有效近似客观计算能力:8题SNS与11题Lipkus客观量表相关r=0.53(校正后0.68),证明在不需要精确测量的研究场景下,主观量表是客观测试的有效替代
  2. 双维度结构是关键创新:能力自评("你做百分比有多好")+ 偏好维度("偏好数字vs.文字")共同预测客观计算能力,后者揭示了对数字呈现的偏好本身蕴含计算能力信息
  3. 测量体验的实质性改善:SNS完成时间减少33%、压力评分降低40%、后续参与意愿提高6倍以上、缺失率降低10倍,对纵向研究和大规模调查具有重大实践价值
  4. 方法选择有情境依赖:当研究需要精确个体计算能力分类时仍应使用客观量表;当作为协变量、在远程施测、或需降低被试负担时SNS更优