【自然语言处理】之——多领域实体关系抽取数据集盘点

张开发
2026/4/12 22:17:24 15 分钟阅读

分享文章

【自然语言处理】之——多领域实体关系抽取数据集盘点
1. 实体关系抽取数据集入门指南第一次接触实体关系抽取任务时最让我头疼的就是找不到合适的数据集。记得当时为了测试一个模型花了两周时间到处搜集零散的标注数据结果发现格式不统一根本没法用。后来才明白选对数据集是成功的一半。实体关系抽取Relation Extraction是自然语言处理中的一项基础任务简单说就是从文本中识别出实体之间的关系。比如马云创立了阿里巴巴这句话我们需要识别出马云人物、阿里巴巴公司两个实体以及它们之间的创立关系。目前主流的数据集主要来自以下几个领域通用领域新闻、百科等医疗健康文学艺术金融法律科技工程每个数据集都有自己独特的标注规范和适用场景。新手最容易犯的错误就是拿医疗数据集训练模型然后去处理新闻文本结果准确率惨不忍睹。接下来我会详细介绍各个领域的代表性数据集帮你避开这些坑。2. 中文通用领域数据集2.1 DuIE 2.0最全面的中文关系抽取基准百度开源的DuIE 2.0是我最推荐的中文入门数据集。它包含了超过21万条标注数据覆盖了48种预定义关系类型。最让我惊喜的是它的数据来源非常丰富包括百度百科结构化程度高百度贴吧口语化表达新闻资讯正式文体这个数据集特别适合做多场景测试。我做过一个实验用纯百科数据训练的模型在贴吧文本上的F1值直接掉了15个百分点这说明不同场景的数据差异真的很大。数据集采用JSON格式每条数据包含{ text: 周杰伦演唱了《青花瓷》, spo_list: [{ subject: 周杰伦, predicate: 演唱, object: 青花瓷 }] }2.2 ACE2005英文数据集的金标准虽然这是个英文数据集但ACE2005在关系抽取领域的地位就像ImageNet之于计算机视觉。它包含599篇英文文档7大类关系如人物-组织关系18个子关系类型我建议即使做中文项目也应该了解一下这个数据集因为很多创新模型都是先在ACE2005上验证的。不过要注意的是这个数据集需要付费获取约500美元学术机构可以申请优惠。3. 医疗健康领域数据集3.1 CBLUE-CMeIE中文医疗信息抽取基准阿里云联合多家医院发布的CMeIE数据集包含了11万条中文医疗文本的关系标注。这个数据集的特点是标注了53种医疗关系如疾病-症状包含电子病历、医学文献等专业文本实体边界标注特别精确我在处理这个数据集时发现医疗文本的实体识别难度比通用文本高很多。比如Ⅱ型糖尿病伴酮症酸中毒这种复合型实体标注时要求必须完整标注不能拆开。3.2 i2b2/VA临床关系抽取的经典选择这个由美国国立卫生研究院支持的数据集包含了1704份出院小结药物-疾病关系标注时间表达式标注特别适合研究临床决策支持系统。不过要注意的是这个数据集需要签署数据使用协议才能获取。4. 文学领域特色数据集4.1 Chinese Literature NER RE北大开源的这个文学数据集解决了我的一个痛点——长文本关系抽取。它包含500篇完整的中文小说章节人物关系图谱标注跨段落指代消解处理这个数据集时传统的句子级关系抽取模型效果很差必须使用篇章级模型。我最后是用图神经网络注意力机制才取得了不错的效果。4.2 BookCorpus虽然这不是专门为关系抽取设计的数据集但包含的1.1万本英文书籍非常适合训练语言模型。我常用它做预训练然后在特定领域数据集上微调。5. 多语言与跨领域数据集5.1 MultiTACRED这个数据集最大的价值在于包含11种语言中文数据约占总量的15%统一的关系分类体系高质量的平行语料我在做跨语言迁移学习时发现先用MultiTACRED做预训练再在特定语言数据集上微调效果比单语言训练提升7-12%。5.2 FewRel 2.0这个小样本学习数据集包含了100种关系类型每个关系只有700个实例领域覆盖维基百科、新闻论坛当标注数据有限时这个数据集能帮你快速验证小样本学习算法的效果。6. 数据集使用实战建议经过多个项目的实践我总结了几个关键经验首先数据预处理比想象中重要。比如DuIE 2.0里有不少嵌套实体北京朝阳区包含北京和朝阳区如果不做特殊处理模型很容易漏掉这种层级关系。其次要注意数据集的license。有些商业数据集禁止用于盈利项目我就吃过这个亏开发完系统才发现不能商用。最后推荐一个工具——Hugging Face Datasets库。它支持一键加载本文提到的大部分数据集from datasets import load_dataset dataset load_dataset(cmrc2018) # 以CBLUE为例选择数据集时一定要先问清楚三个问题1我的应用场景是什么2需要处理什么类型的文本3预期的关系复杂度如何把这三点想明白选数据集就不会走弯路了。

更多文章