论文部分内容阅读
中医经过几千年的传承和发展,具有自身独特的完备理论体系和临床实践指导意义。中医研究者和爱好者注重从中医积累的文献经验中寻找依据和指导。经过几千年累积,中医领域产生了大量文本数据,这些数据语义信息丰富且关系复杂。为响应国家提出的中医药发展战略要求,顺应“互联网+中医药”的产业发展模式,促进推动中医药现代化发展。本文主要围绕中医知识图谱构建和智能问答模型的建立展开,提出了基于知识图谱的中医智能问答模型。本文主要的工作如下:(1)为了解决中文分词不当给实体识别带来不利影响,本文提出了基于字向量的融合条件随机场(Conditional Random Field,CRF)的双向长短期记忆网络(Bidirectional Long Short-Term Memory Network,BLSTM)的中医命名实体识别模型(BLSTM-CRF)。该部分通过整理中医书籍《中医证候鉴别诊断书》《中医150证候辨证论治辑要》,构建中医实体抽取语料库;以字向量作为双向长短期记忆网络的输入,利用双向LSTM提取句子特征;最后接入CRF标签推理,解决输出标签之间的依赖问题。用多种算法在中医实体语料库上做了对比实验,其结果表明,基于字向量的BLSTM-CRF模型优于其他算法,并通过实验找到最适合中医实体识别的LSTM神经网络参数。(2)为了解决Softmax作为LSTM分类器导致实体关系识别模型泛化能力不足的问题,本文提出基于梯度提升树(Gradient Boosting Decision Tree,GBDT)算法的双向LSTM模型。在使用双向LSTM进行特征提取的同时,利用Attention机制抓取关键字词对输入句子的理解,解决该模型容易被无关词干扰的问题。特征提取后采用GBDT对关系分类训练预测。由于GBDT的基础模型具有低方差高偏差等优势,使得集成模型更具稳定性。通过对中医关系语料库和其他两个公开领域语料库实验的比较,证明本文提出的改进模型在精确率、召回率和F值上均有明显提高,是一种适合于中医特定领域的关系抽取模型。(3)为了更好的表示中医实体及实体间的关系,本文通过整理抽取到的实体和关系,形成知识图谱的模式层结构。在进行知识图谱构建的同时,利用TF-IDF算法对证候-症状、证候-舌像、证候-脉象三类关系之间的贡献权值计算,方便后续中医辩证;然后将六类实体和五类关系以及算到的权重导入到图形数据库中完成知识图谱构建,本知识图谱形成的具有的规模为节点总数17618个,关系总数为83335条。(4)为快速获取中医知识,弘扬中医文化,本文构建了基于知识图谱的中医智能问答模型。该部分先对问题进行实体识别、分词等操作,进而对问题抽象化表示,接着提出一种基于GBDT算法的问点识别,并且构建了中医领域内的辨证模型和施治模型,本文的智能问答模型适应于简单问题和复杂问题。综合上文提出的关键技术,采用PYTHON编程语言和相应的开发工具,设计并开发了基于知识图谱中医智能问答系统。