论文部分内容阅读
在大数据背景下,知识图谱(Knowledge graph)已成为资源管理和知识应用的重要技术,为智能化信息应用、搜索引擎和语义处理等技术奠定了基础。作为语义网络的重要成员,知识图谱中囊括了丰富的实体及其属性,以及实体之间的语义关系。在大数据背景下,知识图谱对大规模知识的存储更加高效,应用更加广泛。知识图谱的构建包括许多技术,如本体构建、自然语言处理、网络爬虫、属性抽取、实体对齐、知识存储和知识可视化等。目前在网络搜索领域,己有很多成熟的大规模知识库为人熟知,但医疗领域的知识图谱构建仍处于起步阶段。虽然医学网络资源规模越来越大,但医疗领域知识图谱的构建与应用仍很少,这并不利于医疗资源的传播与共享。因此,本文通过整合多种专业医学数据资源,以肺癌相关药物、基因、靶标、论文为主要实体,对肺癌医学知识图谱的构建进行研究,并在此基础上进行了数据推理和分析。文章的主要研究内容与结果包括如下三个方面:(1)构建面向肺癌药物治疗通路的知识图谱数据层。对肺癌医学领域中主要的概念实体如基因、靶标(蛋白质)、药物和文献等,构建了肺癌医学本体,确定了本体中的类、类的数据属性及类之间的关系,还添加了相关实例。在本体基础上,对数据源数据进行分析,根据数据类型主要利用网络爬虫技术进行实体和关系的抽取。通过实体对齐与关系数据模型的转化对多源数据进行知识融合。最终构建了囊括4类实体(149种药物,29种基因,1130种靶标和10489篇文献)和3种主要语义关系的肺癌医学知识图谱数据层。(2)采用两种不同数据表示形式对知识图谱进行了存储。一种是RDF模型通过Jena数据库存储、一种是属性图模型通过Neo4j数据库存储。并对两种存储方式及其所选数据库进行了三个方面(存储流程、查询语言、可视化)的对比。(3)实现基于肺癌医学知识图谱的知识发现。从医学研究关注的问题出发,运用PAGERANK算法及社区发现算法两种网络图算法对肺癌治疗通路进行知识发现,通过实验结果分析,对肺癌药物治疗效果的进一步提升和药物新用提供关键思路。(4)基于知识图谱的数据可视化。提出肺癌医学知识图谱构建原则,通过对肺癌医学领域知识图谱的功能需求分析,设计并实现知识图谱系统,在系统主界面进行知识图谱的可视化展示。本文构建了以药物治疗分析为侧重点的肺癌医学知识图谱,在选择了适合数据源的知识抽取和知识融合方法的基础上,对知识表示和知识存储进行了探索性研究,最后在知识图谱基础上对药物治疗通路数据进行知识发现。但在知识发现和知识推理方面仍有待进一步深入,此方面将在后续研究中进行完善。