中文医学NLP数据资源指南:从CBLUE到CMeKG,一份可用的公开数据集清单 📅 2026/7/2 10:35:01 中文医学NLP数据资源指南做中文医学自然语言处理最大的难处不是模型而是数据。英文医学领域有 MIMIC、i2b2、BioBERT 这样成熟的资源链中文这边却长期分散有的托管在评测平台、要注册和签署协议才能下载有的散落在个人 GitHub 仓库、规模和标注规范各不相同还有的早已失效却仍被到处引用。下面这份指南按任务类型梳理当前真实可访问的公开资源每个都已确认页面在线并标明获取方式你可以据此直接动手。综合基准先看 CBLUE如果你不确定从哪里起步先看中文医疗信息处理评测基准 CBLUE。它把多项中文医学语言理解任务收进同一个框架官方仓库列出的任务包括 CMeEE医学实体识别、CMeIE关系抽取、CHIP-CDN诊断标准化、CHIP-CTC临床试验筛选标准分类、CHIP-STS句子相似度以及 KUAKE 系列检索相关任务覆盖 NER、关系、归一化、分类、检索等多个方向。数据通过阿里云天池平台分发CBLUE 天池数据集页面 提供训练、验证、测试切分及评测脚本需登录天池账号后下载。具体任务数量与字段会随版本更新以官方页面为准。命名实体识别NERCBLUE 内的 CMeEE 是当前最常用的中文医学 NER 任务之一按官方说明覆盖疾病、身体部位、临床表现、医疗操作等多类实体具体类别与样本量以官方为准适合做实体识别基线。另一份经典数据是 Yidu-S4K医渡云结构化4K数据集来自 CCKS 2019 中文电子病历命名实体识别评测由医渡云团队基于真实病历分布标注包含实体识别与实体属性抽取两个子任务。该数据同样托管在天池原始授权限于评测使用下载前请阅读其使用条款。关系抽取与知识图谱关系抽取方向CBLUE 中的 CMeIE 提供面向疾病的中文医学关系抽取数据标注了多类实体间关系类型可直接用于三元组SPO抽取实验。知识图谱方向首选 CMeKG 中文医学知识图谱工具。该项目由相关高校与实验室联合研发仓库开放医学分词、实体识别、关系抽取三类工具的代码与使用方法模型文件因体积较大另行托管仓库内附下载说明。图谱本身覆盖疾病、药物、症状、诊疗技术等概念及其关系规模与在线服务以官方发布为准。问答与对话做医疗问答或检索式问答可用 cMedQA2 中文社区医疗问答数据集。官方说明其包含约 10.8 万个问题与 20 万余条回答并附训练/验证/测试候选切分已做匿名化处理采用 GPL-3.0 许可、限非商业研究使用仓库内 CSV 文件可直接下载。意图理解方向可用 CMID 中文医学意图数据集提供 4 类与 36 类两套意图标注JSON 格式同时给出原文、实体、分词与意图标签明确仅限科学研究使用需要时按仓库说明联系作者团队。对话场景可参考 中文医疗对话数据集按官方说明覆盖男科、内科、妇产科、肿瘤科、儿科、外科六个科室合计约 79 万条问答对以 CSV 形式按科室组织采用 MIT 许可可直接克隆使用。选择建议与常见坑做 NER优先用 CBLUE 的 CMeEE 起步它标注规范统一、有官方评测脚本便于横向对比需要更贴近真实电子病历的场景再补充 Yidu-S4K。做知识图谱从 CMeKG 入手它已把分词、识别、抽取串成可用工具链省去从零搭建图谱的成本。做问答或对话cMedQA2 适合检索式问答评测Toyhom 的对话数据适合生成式对话训练。几个反复出现的坑值得提前留意一是标注规范不统一不同来源对实体边界、关系类型的定义差异很大跨数据集混用前务必对齐标签体系二是授权与脱敏多数医学数据仅限科研、禁止商用部分要求注册评测平台或签署协议落地到产品前要确认许可边界三是繁简体与编码部分语料含繁体或异体字预处理阶段统一字符集可以避免后续踩坑。如果你需要快速判断某个具体任务下还有哪些可用资源、或某个数据集是否已迁移失效可以试试数聚天成 DeepSData 的数据集检索服务。我们用学术诚实的框架做检索命中就如实返回、没有就直说帮你少花时间在失效链接上把精力留给真正的建模工作。本文整理的数据集均以官方页面为准使用前请确认最新版本与许可条款。