论文部分内容阅读
随着人们生活水平的日益提高,大家对于医疗健康的关注度逐年上升,这不仅体现在人们对于医学知识需求的不断增长,也体现在我国医学研究上的不断创新。近年来,我国的医学科研水平持续提高,医学科研人员每年产出海量的相关文献。这些文献数量庞大,内容繁杂,并且专业性较强,对于普通读者来说难以理解论文内涵。然而,这些数据中蕴含丰富的专业医学知识,使用文本挖掘技术将这些知识加工为结构化信息,将为中文医疗知识信息化带来巨大进步。自然语言处理的快速发展,使得从文献中自动抽取医学实体及实体间关系成为可能。抽取到的医学知识可用来构建医学知识图谱,推动我国医学智能化发展。知识图谱可以将非结构化数据转化为结构化数据,促进人们对于知识单元的理解与应用。近年来,知识图谱的构建与应用越来越受到工业界的关注,并且大量企业尝试将其应用在商业场景中。本文基于中文医学文献构建医学知识图谱,其构建过程主要分为四部分:医学知识获取,医学命名实体识别,实体关系抽取以及知识图谱存储。本文聚焦于中文医学相关文献,数据主要来源于中国知网(CNKI)。在医学知识获取阶段,本文通过模拟人类点击的行为从CNKI中获取文献摘要数据,并进行数据预处理。在医学命名实体识别阶段,本文使用BiLSTM+CRF作为模型基础结构,加入Attention机制来学习每个词对于全文的依赖关系,并加入汉字部首特征提高识别的效率。在实体关系抽取阶段,本文构建了融合Multihop-Attention机制的BiLSTM模型。首先使用BiLSTM模型学习每个词的上下文特征;接着,利用Multihop-Attention机制学习句子的多个向量表示,为输出层提供语义更加丰富的语义信息。互联网的快速发展使其成为大家查阅医疗健康相关信息的重要渠道。用户使用医学平台或检索系统查询问题时,往往需要浏览大量冗余或无关的信息,难以快速准确的获取到所需信息。为解决传统医学平台查询效率低的问题,本文提出使用中文医学知识图谱来辅助查询过程。知识图谱中包括医学实体以及实体间关系,通过可视化的方式,用户可快速定位到所需信息。为此,本文在医学文献检索系统中引入构建好的医学知识图谱。该系统在文献检索功能的基础上增加了医学实体标记、知识图谱可视化、医学知识实体库等功能。检索结果中文献摘要的医学实体名词由不同颜色标记出来,与查询词相关的知识图谱以网络图的形式展示,用户从这些结构化信息中可快速获取有价值信息,提高检索的效率。