论文部分内容阅读
互联网信息的爆发式增长,既为用户带来了丰富的信息知识,也为用户从中筛选所需知识造成了困难。传统的搜索引擎基于对互联网数据的全文索引,通过关键词匹配索引的方式为用户返回相关信息的链接,而不是直接明确的知识点,用户仍需从返回的大量冗余链接中查找并提炼自己所需的知识。如何从海量的、结构多样化的信息中有针对的为用户返回精确信息,已成为当前知识搜索的研究热点。知识图谱技术的兴起为该研究提供了新的解决思路。知识图谱能够以一种更直观的方式表达出现实世界中的实体的信息以及实体和概念之间的关联。本文将互联网文本数据作为语料资源,对其进行知识图谱构建的研究。本文研究了知识图谱构建中的序列标注问题。在该问题上,本文采用了长短期记忆(LSTM)网络结构,为保留训练过程中更多的特征信息,提出用预训练词向量和微调词向量扩展LSTM结构单元的D-LSTM模型。此外,为了应对医疗领域标注文本稀疏的情况,本文在D-LSTM的基础上结合Co-training半监督的方法,提出改进模型CTD-BLSTM,通过迭代训练进一步提升识别效率。本文用Python编写了CTD-BLSTM算法,并设置本文模型与原始BLSTM的对比实验以及用完整数据集训练的对比实验,验证了本文方法具有更好的识别效果和适应性。最后,以此为基础实现了中文医疗领域知识图谱的构建。本文基于构建的中文医疗领域知识图谱,用Java语言设计实现了医疗知识搜索系统。该系统通过对用户输入的自然语言进行句法分析和语义依存分析等处理,识别用户的搜索意图,借助知识图谱,以一种更加直观、精确的方式返回用户所需的知识。