论文部分内容阅读
目的利用中国知网网络期刊数据库的中医药类型文献摘要数据,结合自然语言处理、机器学习与深度学习等方法,对中药方剂与疾病之间的关系进行抽取,并对关系抽取的结果进行可视化展示。方法使用Web爬虫技术自动获取中国知网的文献摘要数据,并对其进行数据清洗、构建词典、分词等预处理,然后使用两种目前最流行的方法对中药方剂与疾病的关系抽取方案进行对比研究。第一种方法首先对清洗整理后的文献摘要数据进行特征提取,再构建SVM分类模型;第二种方法无须人工提取特征,结合LSTM模型直接使用Word2Vec训练词向量。由于文献摘要数据量较大,为提高数据处理效率,在进行关系抽取时探索使用Spark分布式计算平台执行计算任务。关系抽取的结果保存在非关系型数据库中,并对结果进行网页展示,采用JSON数据格式进行前后台数据交互,借助D3.js技术在Web前端进行可视化展示。结果使用Web爬虫技术,共获取中国知网从1950年到2016年,“文献分类目录”下“医药卫生科技”—“中医学”类别的所有摘要数据,共计1073581篇摘要,根据中药方剂与疾病词典筛选出同时包含中药方剂与疾病的语句共204780句。第一种方法构建的SVM分类模型,准确率达87%;第二种方法结合Word2Vec训练的词向量,构建的LSTM模型,其准确率基本上保持在85%--87.5%之间,与使用SVM模型的准确率基本一致。在第一种方法中使用Spark分布式计算平台执行计算任务,显著提高了运行速度。将中药方剂与疾病之间的关系抽取结果存储在MongoDB非关系型数据库中,借助D3.js,结合Spring Boot后台与Vue.js前端框架制作可视化展示系统,可在浏览器中对关系抽取的结果进行动态展示与查询。结论利用机器学习方法与深度学习方法对中国知网中医药文献摘要文本数据进行关系抽取,准确率较高,得到的中药方剂与疾病关系三元组,将对中药方剂治疗疾病研究起积极推动作用。中药方剂与疾病关系抽取结果的可视化展示系统,有助于中医药研究人员进行快速检索。