一致性检验怎么选？ Kappa、Kendall、ICC、rwg、Bland-Altman图一文理清

📅 2026/6/30 5:31:56

做一致性检验时最难得地方应该是“我的研究数据到底该用哪一种方法”。比如两位医生的诊断结论是否一致多名专家评分是否协调团队成员打分能不能汇总到团队层面两台设备的测量值能不能互相替代这些都属于一致性问题但统计方法并不相同。今天一文理清五类一致性检验方法教你选择Kappa、Kendall、ICC、rwg 和 Bland-Altman图。一、一致性检验方法选择快速判断思路①看数据类型无序分类、有序等级还是连续数值②看结果数量只有两列还是多位评价者/多个时间点③看研究目的是评价一致性、做跨层汇总还是想用图形展示两种测量方法的差异可根据下表选择一致性检验法方法数据场景优先考虑的方法一句话理解两位评价者给出无序分类结果简单Kappa判断分类结论是否超过随机一致。两位评价者给出有序等级结果加权Kappa考虑等级差异程度“差1级”和“差很多级”影响不同。三位及以上评价者给出分类结果Fleiss Kappa扩展到多个评价者的分类一致性评价。多位评价者对多个对象排序或等级评分Kendall W协调系数判断多个评价者的排序意见是否一致。多位评价者/多次测量得到连续分值ICC组内相关系数常用于连续评分一致性、评价信度和重测信度。个体数据要汇总到团队、班级、科室等层面rwgICC(1)/ICC(2)判断组内成员意见是否足够一致并验证聚合合理性。两种设备、方法或时间点的连续测量值Bland-Altman图用差值图判断两种测量是否具有可替代性。也可以记成一句话分类看Kappa等级协调看Kendall连续评分看ICC跨层汇总看rwg两种连续测量方法的替代性看Bland-Altman图。接下来分别介绍五类一致性检验方法数据格式、软件操作及分析结果解读。二、Kappa系数Kappa系数适合处理定类结果的一致性问题。例如两名质检员判断产品“合格/不合格”两位医生判断影像“阴性/阳性”或者两位评审给出“低风险/中风险/高风险”等结论。1、Kappa系数类型Kappa一致性检验分为简单Kappa、加权Kappa、Fleiss Kappa系数加权Kappa又细分为线性加权Kappa和二次加权Kappa。适用数据说明如下Kappa类型适用数据示例简单Kappa两位评价者的无序分类数据合格/不合格、阳性/阴性、A/B/C类别加权Kappa两位评价者的有序等级数据轻/中/重、低/中/高、不满意/一般/满意Fleiss Kappa三位及以上评价者的分类数据多位专家对同一样本进行分类判断1简单Kappa无序分类变量——当两位评价者或两种方法给出的结果属于无序分类数据时可使用简单Kappa评价其一致性。例如比较两种筛查方法对于疾病检出结果阳性/阴性的一致性判断两种方法是否能够得到相似的分类结论。2加权Kappa有序等级分类变量——如果数据存在顺序关系如轻/中/重、低/中/高、不满意/一般/满意可使用加权Kappa权重会考虑差异的大小。例如研究医生对皮疹严重程度轻/中/重评分的一致性使用加权Kappa计算评分一致性。3Fleiss Kappa三位及以上评价者的分类数据——适用于多位评价者对同一样本进行分类的情况扩展了简单Kappa到多评价者。例如多名病理学专家对同一批肿瘤切片进行良性/恶性分类的一致性评价。SPSSAU【实验/医学研究】模块提供【Kappa系数】右侧可选择kappa类型2、Kappa系数判断标准使用Kappa系数衡量一致性水平。Kappa系数取值在01之间通常情况下Kappa系数范围一致性程度 0极差0.0 ~ 0.2微弱0.2 ~ 0.4弱0.4 ~ 0.6中度0.6 ~ 0.8高度0.8 ~ 1.0极强3、Kappa数据格式Kappa系数的数据格式比较特殊下面分别介绍1简单Kappa如果说数据没有 ‘ 加权 ’ 共50个样本那么总共50行分别表示鼻拭子或者咽拭子的检测结果此时则没有加权数据也不需要进行加权项放置数据格式如下表2加权Kappa学者对于作品满意度分为满意、一般、不满意三种。因此3*3共有9种组合单独使用一列数据表示每种组合的数量即权重数据结构如下表3Fleiss Kappa比较两项以上的一致性数据格式如下表提示Fleiss Kappa不支持 “ 加权项 ”4、SPSSAU分析结果解读以简单Kappa为例SPSSAU输出Kappa系数结果如下从上表可以看出Kappa一致性检验呈现出显著性p0.0000.01说明两位医师判定结果具有一致性Kappa值为0.456介于0.4和0.6之间说明一致性程度中等。点击下方链接查看SPSSAU帮助手册Kappa一致性检验三、Kendall协调系数Kendall协调系数也叫Kendall W常用于多位评价者对多个对象进行评分、排序或等级评价的场景。比如专家组对候选方案打分评委对选手排序或者多名老师对学生作品给出等级评价。Kendall W的取值范围通常为0-1常见参考口径与Kappa类似0.6以上可认为一致性较强0.8以上则较高。1、数据格式Kendall分析时数据数据由K个评价者对N个对象的评分构成要求评价者的评分数据至少是等级资料有序分类或连续型定量数据。可以是一列代表一位评价者也可以是一行代表一位评价者关键是上传数据后在SPSSAU参数中选对“评价者按列”或“评价者按行”。如果这里选反后面的结果就会跟着跑偏。下表一列代表一位评价者为按列录入格式2、SPSSAU分析结果解读在SPSSAU【实验/医学研究】模块选择【Kendall协调系数】右侧选择数据格式操作如下图SPSSAU输出Kendall分析结果如下分析上表可知Kendall协调系数检验呈现出显著性(p0.0000.05)意味着5个评委的评价具有关联性即说明评价具有一致性。同时Kendall协调系数为0.803大于0.8说明评价一致性程度很强。点击下方链接查看SPSSAU帮助手册Kendall协调系数四、ICC组内相关系数ICC 组内相关系数适用范围很广常用于多位评价者给连续分值、同一批对象多次测量、量表前后测重测信度等场景。比如三名评估者给同一批样本打分两台仪器对同一批样品给出数值或者同一份量表间隔一段时间后再次测量。1、ICC模型选择ICC组内相关系数的计算有3种模型分别是单向随机、双向随机、双向混合说明如下ICC模型说明单向/双向模型无法区分评价者或评价者随机分配对象时使用单向模型所有评价者均评价同一批对象时使用双向模型随机/混合模型希望结果推广到其他评价者时使用随机效应模型仅关注当前固定评价者时使用混合效应模型一致性/绝对一致性仅关注评分趋势是否一致时选择一致性要求评分结果数值接近时选择绝对一致性1单向模型与双向模型单向模型适用于不同研究对象由不同评价者或随机评价者进行评分且不重点区分具体评价者差异的场景。双向模型则适用于所有评价者均对同一批研究对象进行评分的情况。例如3位专家同时对100份问卷进行评分应选择双向模型若每份问卷由随机抽取的若干名专家评分且不同问卷对应的专家不完全相同则更适合单向模型。2随机效应与混合效应随机效应模型认为当前评价者只是总体评价者中的一个随机样本因此研究结论可以推广至其他类似评价者混合效应模型则仅关注当前参与评价的这组评价者。例如从全国随机抽取10名医生进行诊断一致性研究可选择随机效应模型若研究仅关注某医院固定的3名医生则可选择混合效应模型。3一致性与绝对一致性一致性关注评价者给出的相对排序是否一致允许存在整体偏高或偏低的评分倾向绝对一致性则要求评分结果在数值上也尽可能接近。例如两位教师对学生成绩打分一位习惯普遍高打5分但排名顺序一致此时一致性可能较高而绝对一致性会降低。除此之外3种模型均会输出单一度量或者平均度量这两个指标值。单一度量反映单个评价者评分结果的可靠性平均度量反映多个评价者评分均值的可靠性通常其ICC值高于单一度量。例如如果实际工作中仅采用一名专家的评分结果应关注单一度量ICC如果最终使用3位专家评分的平均值则应报告平均度量ICC。综上所述结合3个模型以及计算类型和度量标准ICC模型一共可分为六个如下表汇总2、数据格式ICC组内相关系数的使用范围较广但其复杂度相对较大需要特别注意数据格式。假设3个医生对于10个病人智商分值打分录入后的ICC数据格式如下3、SPSSAU分析结果解读在SPSSAU【实验/医学研究】模块选择【ICC组内相关系数】选择模型操作如下图SPSSAU输出ICC组内相关系数分析结果如下若使用的是原始数据则使用单一度量的ICC组内相关系数0.970若使用的是计算后数据则使用平均度量的ICC组内相关系数0.990。从上表可以看出三位调查员打分的一致性程度很强。点击下方链接查看SPSSAU帮助手册ICC组内相关系数五、rwg组内评分者信度rwg主要出现在跨层研究中。简单说当数据来自个人但研究结论想上升到团队、班级、门店、科室等更高层级时需要先证明同一组内部成员的回答足够一致。否则直接把个人分数求平均当作团队分数统计上就不够稳。1、数据格式典型数据格式包括组别变量、成员编号以及若干个评分项。使用group来标识组别1组和2组6个测量项共计6列。单独还有一列为subject即员工的编号此列数据在分析时不需要使用无分析意义。最终数据格式如下2、指标说明rwg关注组内成员是否意见一致ICC(1)关注组间是否存在差异ICC(2)关注组均值是否可靠。三者结合使用才能较全面地判断个体数据是否适合聚合到团队、班级或组织层面。指标说明如下指标主要回答的问题常见标准rwg同一组成员的回答是否足够一致可以视为同一个整体。rwg 0.5表示中等一致性0.7表示较高一致性0.9表示非常高的一致性。ICC(1)个体得分中有多少比例来自组别差异即组别是否会影响成员得分。0.2达到0.2为佳。ICC(2)组均值是否稳定可靠可以作为组层变量进行后续分析。0.6在ICC(1)达标前提下把0.6作为ICC(2)的可接受下限。1rwgrwg用于评价同一团队、班级或科室成员的回答是否足够接近。如果组内成员对同一问题看法差异很大即使属于同一个团队也不适合直接计算团队均值。例如某部门10名员工对领导风格进行评价若rwg较高说明员工意见较一致可以将个人数据聚合为部门层面数据。2ICC(1)ICC(1)反映个体差异中有多少比例来源于组别差异本质上用于判断“不同组之间是否真的存在差异”。例如如果ICC(1)0.12表示约12%的个体得分差异来自团队之间的差异其余88%来自团队内部成员差异。3ICC(2)ICC(2)用于评价组均值是否稳定可靠是判断个体数据能否聚合为团队层面变量的重要依据之一。例如研究团队创新氛围时如果ICC(2)较高说明团队平均得分具有较好的稳定性可以代表该团队整体水平。3、SPSSAU分析结果解读在SPSSAU【问卷研究】模块选择【rwg】操作如下图SPSSAU输出rwg分析结果如下分析结果可知整体rwg值为0.821说明组内评分者一致性较高个体评分具备较好的组内一致基础分组结果中第1组rwg0.907达到极高一致性水平第2组rwg0.735也达到较高一致性水平说明两个组内部成员的评价较为一致。进一步结合 ICC 结果来看ICC10.581说明个体评分在不同组之间存在较明显差异组别对评分具有一定解释作用ICC20.874说明组均值信度较高。同时F7.928p0.0230.05表明组间差异具有统计显著性。综合来看本数据支持将个体层面的评分结果聚合到组层面进行后续分析。点击下方链接查看SPSSAU帮助手册rwg组内评分者信度六、Bland-Altman图Bland-Altman图常用于两种连续测量方法、两台设备或两次测量结果的一致性评价。它不只看两列数据是否相关而是直接看“差值有多大、差值是否稳定、差值是否落在可接受范围内”。1、数据格式例如医生使用两种方法对同一对象进行测量若需要检验两种方法结果是否一致可使用Bland-Altman图。若数据中包含性别等分组变量可将其放入group中图中会用不同颜色区分分组但不影响指标计算。数据格式如下2、SPSSAU分析结果解读在SPSSAU【实验/医学研究】模块选择【Bland-Altman】操作如下图SPSSAU输出分析结果如下Bland-Altman图横坐标是两种方法的平均值纵坐标是两种方法的差值。中间线表示平均差值也可以理解为系统偏倚上下两条线是95%一致性界限通常按“平均差值 ± 1.96 个差值标准差”计算。可视化图形解读如果大部分散点落在95%一致性界限内并且这个界限在专业上可以接受通常说明两种方法一致性较好。如果散点随测量均值增大而明显上升或下降说明可能存在比例偏倚如果平均差值明显偏离0说明可能存在系统偏倚。点击下方链接查看SPSSAU帮助手册Bland-Altman图

新闻详情

相关阅读

openGauss5.0.3在centos7中镜像打包，在wsl中加载启动

AI电商素材生成：从“修图”到“连续作战”的全流程解析

MicroPython 内核开发者直接狂喜！这个 Claude 插件市场，把开发全流程做成了「对话式外挂」合集 - upypi(45)

Java 开发工具 IDEA 2025.2 社区版完整安装实操指南

2026车间夏季薄款工装，透气清爽干活更带劲

如何在5分钟内将任何单张图片转换为专业PSD分层文件：Layerdivider智能图像分层技术解析

Untrunc视频修复工具终极指南：三步拯救损坏的MP4视频文件

ChatGPT Plus退订后数据去哪了？：深度解析OpenAI账户注销逻辑、API访问残留、聊天记录自动清除时效（附官方未公开的GDPR合规操作清单）

现场拍照总对不上CAD图纸？快试试这个「水印相机」功能

AScript异步执行与await关键字

如何在1分钟内为Windows安装苹果USB网络共享驱动：完整解决方案

NoFences：你的Windows桌面需要一场空间革命吗？

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！