论文部分内容阅读
研究目的基于中医古籍所记载的大量碎片化不孕症知识以及相关条文,研究以中医不孕症为主题的知识图谱构建与相关条文的组织、挖掘、推荐的相关方法,为中医古籍不孕症知识的合理组织、条文间知识继承性关系的发现、推荐应用探索开辟新路径,为高效地建立起更为完整的中医古籍不孕症知识体系、快速定位重点知识、智能化知识推荐提供新思路,从而促进中医药古籍知识的高效组织、有效继承与良好发展。研究方法1)知识表示与知识建模研究:以《中华医典》收录的中医古籍记载的大量不孕症知识为知识来源,通过尽可能全面地检索与筛选,获得并导出记载不孕症知识的条文。参考《中华医典》《中国中医古籍总目》,结合条文所载内容特点,对条文进行分类与说明,进而分析不孕症知识的表示特点,对其中所包含的知识元素如概念类型、属性以及语义关系和它们所共同构成的知识表示结构进行总结、刻画,形成基于语义的知识表示模型。为了形成对概念间关系、概念与属性间关系的定量认识,对知识元素间的相关性进行了符合语义的共现分析,以共现频数为基础,进一步明确各知识表示子主题中的核心概念与重要属性,合理地选择出用于建模的各种知识元素。对各子主题中的概念、属性与语义关系进行设计,形成子主题知识模型,并在知识本体构建工具protégé的辅助下对子主题模型进行整合,最终构建起能够反映中医古籍不孕症知识体系的知识模型,为后续知识图谱构建与挖掘探索研究奠定基础。2)知识图谱的构建研究:对已经获得的中医古籍不孕症相关条文,通过doccano文本标注平台进行命名实体标注,借助自然语言处理工具包HanLP,编写Python代码实现基于规则和自定义词典的知识抽取与命名实体识别,并结合人工校对获得相关实体。在知识规范化规则的约束与国家或行业标准的辅助下,通过异名字符串匹配与人工校验结合的方式实现实体知识的对齐,为知识图谱构建提供质量较为可靠的知识来源。在上述基础之上,选择更加适合表示带权重关系的基于标签的属性图(Labelled Property Graph,LPG)知识存储模型,按照一定的转换规则将RDF三元组模型进行转换,增加对属性取值范围的约束,更新带属性的关系,形成五大子主题对应的属性图模型。在批量导入功能与Cypher语句对空值、数组类型属性值的合理处理下,构建起子主题与融合后的不孕症主题知识图谱,并存储于Neo4j之中。进而在此基础上提出知识继承性假设与度量方法,对知识继承性的发现进行示例性研究,探索条文间隐含的继承性关系。3)基于图算法的知识挖掘研究:为进一步探索在继承性关系上发现其中重要性高、值得优先关注的条文,以及了解同一主题下多条条文间的继承性关系,梳理知识发展脉络的方法,根据知识图谱图属性的特点,选择了挖掘重要条文的相关图算法Page Rank算法,选择挖掘多条条文间继承性关系路径的最大生成树算法。通过Neo4j中图数据科学库(GDS)提供的图算法支持,编写相关Cypher语句,设置算法参数并进行计算,将获得的结果与专业知识相结合进行分析,综合判断相关方法的可行性。4)知识图谱的推荐应用探索:以前述研究构建起的不孕症知识图谱为基础,补充条文节点的PageRank评分属性,新增条文间表示最大生成树路径的加权关系,探索实现对核心概念、重要条文以及与指定条文密切相关条文的推荐应用。研究结果1)知识表示与知识建模研究:通过对《中华医典》的全面检索,获得并导出2623条有效数据,将不孕症相关条文分成中药、方剂、针灸、诊法、医理等五大子主题。根据对知识结构的分析,发现中药、方剂、针灸等各自子类主题内包含的知识元素较为一致,且知识结构多数较为相近;诊法类主题的子主题内部分知识元素分布与结构较为相近。按照其特点将其分为了气口九道脉类、一般脉诊法类和望诊类;医理类条文表述自由,涉及的概念种类较多,且知识结构复杂不一,缺乏一定规律性;相同主题类型内的知识间相互引用情况较多等特点。进一步,通过概念、属性间共现分析,发现中药子主题下的重要属性为药味、药性与毒性,方剂子主题下的重要属性为组成、用法、注意事项,针灸子主题下重要属性为腧穴定位、刺灸法,诊法、医理子主题中重要属性即所设计的各类属性。通过定性与定量分析后确定了纳入子主题知识模型的概念、属性,并根据语义设计了对应的概念间关系,最终对五大子主题以及古籍、条文、作者信息进行了知识建模,以及在此基础上建立了整合的知识模型,共包含11个相关概念、17个相关属性以及12条概念间关系。2)知识图谱的构建研究:通过基于规则与自定义词典的实体抽取,共获得10527个所需的非规范化实体。为进行实体对齐,对病因病机进行了概括总结与分类,对朝代进行了部分整合与排序,在相关标准以及规范化规则的约束指导下,对齐了抽取获得的非规范化实体,最终获得697种规范化表述的实体。在对条文进行加工处理过程中发现后世医家在撰写著作时多会对前人著作中的内容进行直接或间接的引用,引用部分形成的文字片段保有了前人的认知,从而实现了后世医家对其认知的继承,类似的继承情况较为普遍,由此也形成了庞杂而重复的知识海洋,如能对该继承性进行研究,探索其来龙去脉,将有利于快速发现知识来源、掌握知识的发展脉络,为更好地建立相关知识体系、促进古代中医药知识的传承添砖加瓦。因此提出了“知识继承性”的认识、发现流程以及相关的度量:“知识继承度(Knowledge Inheritance Degree,KID)”,并对计算方式进行了说明,且将知识继承度作为条文间关系的权重存储进知识图谱中。将各子主题知识模型转换为符合存储要求的属性图模型,并对属性类型以及属性值的取值范围进行了限定,对概念的索引进行了设计,更新了条文间以知识继承度为权重的关系以及方剂间以方剂相似度为属性的“相似方剂”关系。通过批量导入构建起多个子主题知识图谱。在构建好的子主题知识图谱上,进行了知识继承性发现的示例性研究,发现知识继承度在评价不同时代古籍条文间知识的继承中具有较好的效果,能够方便学者快速了解知识发展的来龙去脉,为建立相关知识体系提供了有力支撑。3)基于图算法的知识挖掘研究:以中药子知识图谱为例,利用Neo4j图数据科学库(Graph Data Science Library,GDS)提供的 PageRank 算法,编写 Cypher 语句,挖掘出了该主题下条文的重要性排名,并结合排名靠前的重要条文内容及其在知识图谱中的继承关系进行分析,发现与实际相符,认为可以使用PageRank算法来挖掘限定主题内的重要条文。进行知识推荐路径挖掘时,选择重要性排名靠前且只有出度没有入度处于图谱边缘的重要条文为路径起点,以知识继承度作为路径中边的权重,使用最大生成树中的Prim算法进行挖掘,获得了对应的最大生成树或最大生成森林,结合条文内容进行专业分析,确认了该方法可以实现有效的推荐。4)知识图谱的推荐应用探索:以进行了知识挖掘的知识图谱为基础,实现了在用户指定关注子主题基础上推荐子主题下重要核心概念列表,在用户指定所关注的核心概念时推荐按重要性排序的重要条文,以及基于关注条文,对相关知识继承性与重要性综合评价上最高条文的连续推荐功能。研究结论构建中医古籍不孕症知识图谱能够很好地将碎片化知识及其来源(条文)进行组织与整合,辅助建立起更为全面、完整的知识体系;对条文间继承性关系的发现以及基于此进行重点条文、知识继承性路径的挖掘,为能够有重点、有连续性的进行知识推荐提供了新思路、新方法。1)知识图谱是组织中医古籍中大量不孕症碎片化知识的有力工具。中医古籍中不孕症知识分散,知识图谱优势即在于对复杂关系的支持,以及较高的扩展性,因此使用知识图谱组织中医古籍不孕症知识是正确的选择,也使得由多个子主题向总主题的融合更为方便快捷。2)对作为知识载体的条文及其间关系进行合理利用有助于建立起更为完整、立体的不孕症知识体系。条文不仅是知识的来源,其间隐含的继承性关系也包含了丰富的知识,挖掘其中的继承性有利于对领域知识形成连贯的认知、掌握知识的来龙去脉,从而能够更完整地建立起不孕症知识的认知体系。3)基于图算法的知识挖掘能够发现知识图谱中的重要知识来源以及知识间的继承性路径,为连续性、可解释性推荐应用提供了可能性与新思路。基于图算法对其中隐含的关联性进行挖掘能够协助发现知识图谱中的重点条文、核心知识。路径挖掘也是图计算的任务之一,通过路径挖掘发现的知识间的相关性及其组成的路径可以辅助实现从一条重点条文向下一条重点条文的连续推荐,结合由PageRank评分以及知识继承度的综合评价,使得推荐更加具有可解释性与可信性。