论文部分内容阅读
随着中医现代化的提出,与中草药相关的文献资源迅速增长。这些文本内容中隐藏着诸多中草药实体知识及关系,如何从非结构化的文本中挖掘有意义的实体关系是目前信息抽取领域的研究热点,也是构建知识库或实体关系网络(知识图谱)的基础。然而目前该领域的研究并不是很多,针对现有的一些研究可以概括为三个方面:一是实体关系的抽取多基于中文语料,然而英文文献中也包含中草药知识。二是抽取方法多基于传统算法,准确率并不是很高,所以有必要结合深度学习技术做进一步的研究。三是对抽取结果的利用,应结合领域知识做进一步的应用。因此本文的主要工作有以下几个方面:一、从PubMed数据库中检索和收集了中草药相关的英文文章。结合中药与其他实体在文献中的关系描述,定义了中药与疾病、中药与化学物质这两种定向关系。在医学工作者的帮助下构建了实体关系抽取语料库,以实现对关系抽取问题的研究。二、为了提高中草药相关的实体关系抽取准确率,本文结合深度学习技术进行了算法的研究。首先提出了SETATT-CNN模型,该模型创新性体现在根据分段输入特征提出了具有分段注意力机制的SEGATT层。在模型训练上设计了具有权值系数的交叉熵损失函数。其次为了进一步利用高阶特征张量,又设计实现了基于混合特征的关系分类方法。该方法通过预训练深度学习模型以获得高阶语义特征,然后通过拼接特征向量并结合不同分类器,以提高关系分类的准确性。三、通过对中医领域主要实体概念及关系的辨析与获取,结合第四章抽取的实体关系,设计并构建了以中药为核心的实体关系网络,实现了将英文实体关系连接到中医实体关系网络中来。首先根据中药知识体系定义了顶层数据模式,其中定义了相关实体和关系,实体包括:中草药、证候、疾病、方剂等;关系包括:治愈、组成、现象表达等。接着抽取顶层数据模式定义好的实体关系以完成数据的实例化填充。最后通过构建同义词库和中英文映射,将从英文文献中抽取的关系三元组连接到以中药为核心的实体关系网络上,实现了实体和关系的整合连接。最后实体关系网络由中医药专家验证其正确性。为了验证本文工作:首先在三组数据上进行了实验,以验证模型性能。实验结果表明:1.本文方法应用到草药与疾病、草药与化学物质这两种关系抽取任务上,经过与其他相关方法对比分析,本文模型取得了较好的结果。2.在BioCreativeV数据集上做进一步验证,和当前采用深度学习方法进行特征提取的模型相比,本文设计的方法在F值上比最好的结果约高2.7%。其次,在为了方便对构建好的知识库进行检索与使用,本文设计并完成了可视化的检索系统。该平台面向领域专家能够实现对实体知识及关系的管理。面向用户具有中医实体知识检索、实体关系查询等各种检索功能,简化了实体关系网络的展示与检索,用户可以更直接的查看和研究实体关系。