中医古籍不孕症知识图谱的构建、挖掘与应用研究

来源 :中国中医科学院 | 被引量 : 0次 | 上传用户:xiaobaihuo197992
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究目的基于中医古籍所记载的大量碎片化不孕症知识以及相关条文,研究以中医不孕症为主题的知识图谱构建与相关条文的组织、挖掘、推荐的相关方法,为中医古籍不孕症知识的合理组织、条文间知识继承性关系的发现、推荐应用探索开辟新路径,为高效地建立起更为完整的中医古籍不孕症知识体系、快速定位重点知识、智能化知识推荐提供新思路,从而促进中医药古籍知识的高效组织、有效继承与良好发展。研究方法1)知识表示与知识建模研究:以《中华医典》收录的中医古籍记载的大量不孕症知识为知识来源,通过尽可能全面地检索与筛选,获得并导出记载不孕症知识的条文。参考《中华医典》《中国中医古籍总目》,结合条文所载内容特点,对条文进行分类与说明,进而分析不孕症知识的表示特点,对其中所包含的知识元素如概念类型、属性以及语义关系和它们所共同构成的知识表示结构进行总结、刻画,形成基于语义的知识表示模型。为了形成对概念间关系、概念与属性间关系的定量认识,对知识元素间的相关性进行了符合语义的共现分析,以共现频数为基础,进一步明确各知识表示子主题中的核心概念与重要属性,合理地选择出用于建模的各种知识元素。对各子主题中的概念、属性与语义关系进行设计,形成子主题知识模型,并在知识本体构建工具protégé的辅助下对子主题模型进行整合,最终构建起能够反映中医古籍不孕症知识体系的知识模型,为后续知识图谱构建与挖掘探索研究奠定基础。2)知识图谱的构建研究:对已经获得的中医古籍不孕症相关条文,通过doccano文本标注平台进行命名实体标注,借助自然语言处理工具包HanLP,编写Python代码实现基于规则和自定义词典的知识抽取与命名实体识别,并结合人工校对获得相关实体。在知识规范化规则的约束与国家或行业标准的辅助下,通过异名字符串匹配与人工校验结合的方式实现实体知识的对齐,为知识图谱构建提供质量较为可靠的知识来源。在上述基础之上,选择更加适合表示带权重关系的基于标签的属性图(Labelled Property Graph,LPG)知识存储模型,按照一定的转换规则将RDF三元组模型进行转换,增加对属性取值范围的约束,更新带属性的关系,形成五大子主题对应的属性图模型。在批量导入功能与Cypher语句对空值、数组类型属性值的合理处理下,构建起子主题与融合后的不孕症主题知识图谱,并存储于Neo4j之中。进而在此基础上提出知识继承性假设与度量方法,对知识继承性的发现进行示例性研究,探索条文间隐含的继承性关系。3)基于图算法的知识挖掘研究:为进一步探索在继承性关系上发现其中重要性高、值得优先关注的条文,以及了解同一主题下多条条文间的继承性关系,梳理知识发展脉络的方法,根据知识图谱图属性的特点,选择了挖掘重要条文的相关图算法Page Rank算法,选择挖掘多条条文间继承性关系路径的最大生成树算法。通过Neo4j中图数据科学库(GDS)提供的图算法支持,编写相关Cypher语句,设置算法参数并进行计算,将获得的结果与专业知识相结合进行分析,综合判断相关方法的可行性。4)知识图谱的推荐应用探索:以前述研究构建起的不孕症知识图谱为基础,补充条文节点的PageRank评分属性,新增条文间表示最大生成树路径的加权关系,探索实现对核心概念、重要条文以及与指定条文密切相关条文的推荐应用。研究结果1)知识表示与知识建模研究:通过对《中华医典》的全面检索,获得并导出2623条有效数据,将不孕症相关条文分成中药、方剂、针灸、诊法、医理等五大子主题。根据对知识结构的分析,发现中药、方剂、针灸等各自子类主题内包含的知识元素较为一致,且知识结构多数较为相近;诊法类主题的子主题内部分知识元素分布与结构较为相近。按照其特点将其分为了气口九道脉类、一般脉诊法类和望诊类;医理类条文表述自由,涉及的概念种类较多,且知识结构复杂不一,缺乏一定规律性;相同主题类型内的知识间相互引用情况较多等特点。进一步,通过概念、属性间共现分析,发现中药子主题下的重要属性为药味、药性与毒性,方剂子主题下的重要属性为组成、用法、注意事项,针灸子主题下重要属性为腧穴定位、刺灸法,诊法、医理子主题中重要属性即所设计的各类属性。通过定性与定量分析后确定了纳入子主题知识模型的概念、属性,并根据语义设计了对应的概念间关系,最终对五大子主题以及古籍、条文、作者信息进行了知识建模,以及在此基础上建立了整合的知识模型,共包含11个相关概念、17个相关属性以及12条概念间关系。2)知识图谱的构建研究:通过基于规则与自定义词典的实体抽取,共获得10527个所需的非规范化实体。为进行实体对齐,对病因病机进行了概括总结与分类,对朝代进行了部分整合与排序,在相关标准以及规范化规则的约束指导下,对齐了抽取获得的非规范化实体,最终获得697种规范化表述的实体。在对条文进行加工处理过程中发现后世医家在撰写著作时多会对前人著作中的内容进行直接或间接的引用,引用部分形成的文字片段保有了前人的认知,从而实现了后世医家对其认知的继承,类似的继承情况较为普遍,由此也形成了庞杂而重复的知识海洋,如能对该继承性进行研究,探索其来龙去脉,将有利于快速发现知识来源、掌握知识的发展脉络,为更好地建立相关知识体系、促进古代中医药知识的传承添砖加瓦。因此提出了“知识继承性”的认识、发现流程以及相关的度量:“知识继承度(Knowledge Inheritance Degree,KID)”,并对计算方式进行了说明,且将知识继承度作为条文间关系的权重存储进知识图谱中。将各子主题知识模型转换为符合存储要求的属性图模型,并对属性类型以及属性值的取值范围进行了限定,对概念的索引进行了设计,更新了条文间以知识继承度为权重的关系以及方剂间以方剂相似度为属性的“相似方剂”关系。通过批量导入构建起多个子主题知识图谱。在构建好的子主题知识图谱上,进行了知识继承性发现的示例性研究,发现知识继承度在评价不同时代古籍条文间知识的继承中具有较好的效果,能够方便学者快速了解知识发展的来龙去脉,为建立相关知识体系提供了有力支撑。3)基于图算法的知识挖掘研究:以中药子知识图谱为例,利用Neo4j图数据科学库(Graph Data Science Library,GDS)提供的 PageRank 算法,编写 Cypher 语句,挖掘出了该主题下条文的重要性排名,并结合排名靠前的重要条文内容及其在知识图谱中的继承关系进行分析,发现与实际相符,认为可以使用PageRank算法来挖掘限定主题内的重要条文。进行知识推荐路径挖掘时,选择重要性排名靠前且只有出度没有入度处于图谱边缘的重要条文为路径起点,以知识继承度作为路径中边的权重,使用最大生成树中的Prim算法进行挖掘,获得了对应的最大生成树或最大生成森林,结合条文内容进行专业分析,确认了该方法可以实现有效的推荐。4)知识图谱的推荐应用探索:以进行了知识挖掘的知识图谱为基础,实现了在用户指定关注子主题基础上推荐子主题下重要核心概念列表,在用户指定所关注的核心概念时推荐按重要性排序的重要条文,以及基于关注条文,对相关知识继承性与重要性综合评价上最高条文的连续推荐功能。研究结论构建中医古籍不孕症知识图谱能够很好地将碎片化知识及其来源(条文)进行组织与整合,辅助建立起更为全面、完整的知识体系;对条文间继承性关系的发现以及基于此进行重点条文、知识继承性路径的挖掘,为能够有重点、有连续性的进行知识推荐提供了新思路、新方法。1)知识图谱是组织中医古籍中大量不孕症碎片化知识的有力工具。中医古籍中不孕症知识分散,知识图谱优势即在于对复杂关系的支持,以及较高的扩展性,因此使用知识图谱组织中医古籍不孕症知识是正确的选择,也使得由多个子主题向总主题的融合更为方便快捷。2)对作为知识载体的条文及其间关系进行合理利用有助于建立起更为完整、立体的不孕症知识体系。条文不仅是知识的来源,其间隐含的继承性关系也包含了丰富的知识,挖掘其中的继承性有利于对领域知识形成连贯的认知、掌握知识的来龙去脉,从而能够更完整地建立起不孕症知识的认知体系。3)基于图算法的知识挖掘能够发现知识图谱中的重要知识来源以及知识间的继承性路径,为连续性、可解释性推荐应用提供了可能性与新思路。基于图算法对其中隐含的关联性进行挖掘能够协助发现知识图谱中的重点条文、核心知识。路径挖掘也是图计算的任务之一,通过路径挖掘发现的知识间的相关性及其组成的路径可以辅助实现从一条重点条文向下一条重点条文的连续推荐,结合由PageRank评分以及知识继承度的综合评价,使得推荐更加具有可解释性与可信性。
其他文献
很多初中学生在学习古诗词时可能会存在一些困难,主要是因为学生之前没有丰富的古诗词知识储备,并且他们对于古诗词的学习兴趣并不高。因此,在当前的初中语文课堂上,教师不要一味地去关注学生学习古诗词的数量,而是要让学生能够真正地感受到古诗词的魅力,让其更为主动的姿态投入到古诗词学习中,有效提升古诗词课堂教学效率。
随着我国经济的高速发展,人民群众健康意识逐渐增强,我国传统医药企业近几年也得到了快速发展。云南白药公司作为传统医药企业中的龙头企业,如今也走向了转型发展的关键期。研究发现云南白药集团现行的财务战略相对保守,导致投资结构不科学,资产结构不合理,使得实施效果受限,影响了企业的长远发展。云南白药集团应对现行财务战略进行完善,优化资产结构,保持资本结构稳定,实现产品差异化与多样化,做到研发与生产相统一,实
<正>《教育部关于全面深化课程改革落实立德树人根本任务的意见》中指出:"立德树人是发展中国特色社会主义教育事业的核心所在,是培养德智体美全面发展的社会主义建设者和接班人的本质要求。课程是教育思想、教育目标和教育内容的主要载体,集中体现国家意志和社会主义核心价值观,是学校教育教学活动的基本依据,直接影响人才培养质量。"学科教学是立德树人的主要途径,"挖掘知识的育人价值和精神意义,是教学从知识导向走向
期刊
作为一种自动化决策技术,算法既具有促进市场竞争的潜力,又是经营者获得市场力量的重要来源,甚至可能被经营者滥用实施算法垄断行为。算法垄断行为类型多样,除算法共谋、算法个性化定价外,还包括算法自我优待、算法掠夺性定价、算法剥削性滥用和算法驱动型经营者集中。作为一种新型垄断行为,算法垄断行为对现行反垄断法理论和制度构成了挑战。为有效规制算法垄断行为,需要构建“市场力量—市场行为—竞争损害”的反垄断法分析
互联网平台限定交易行为的反竞争效果具有多样性,反竞争效果的分析具有复杂性。在裁判实践中,出现了对竞争秩序保护的偏离、对定性分析规范的偏离、对定量分析规范的偏离和对程序规范的偏离等现象。本文以互联网平台限定交易行为反竞争效果为研究对象,采用文本分析法和比较研究法对我国限定交易裁判实践中反竞争效果分析的实然效果进行了反思,并对改进路径进行了探究。研究结果表明,裁判实践中存在对竞争秩序首要地位的偏离、对
<正>拥有100多所高校的陕西科教资源丰富,科研成果数量可观。为了让更多科研成果落地转化,为高质量发展提供科技支撑,2021年3月,秦创原创新驱动平台建设启动,制定了实施三年行动计划和“1+N”政策体系;2022年3月底,《陕西省深化全面创新改革试验推广科技成果转化“三项改革”试点经验实施方案》发布,推进省属综合类、理工类高等院校实施职务科技成果单列管理、技术转移人才评价和职称评定、横向科研项目结
期刊
辽宁省盘锦市的物流需求预测,必须立足于盘锦市本身的经济发展特点以及全国的经济走势的基础上才能进行精确的预测。也就是说,对于盘锦市的物流需求预测必须是结合盘锦市本市的特点和整个国家经济发展的特点上来进行。只有在这个基础上才能对盘锦市的物流需求预测做到科学、准确、客观。
近年来,平台反垄断问题引起广泛关注。作为关键生产要素,大数据强化了平台的网络效应、规模经济效应和锁定效应,极有可能会导致平台出现市场集中趋势,进而影响平台垄断的基本属性。大数据本身虽不直接产生垄断,但大型互联网平台为维护市场优势地位,利用大数据实施垄断行为,给传统的反垄断理论和实践带来一定挑战。为应对大数据、大型互联网平台给反垄断带来的挑战,促进大型互联网平台有序竞争与规范发展,应在大数据情境下探
近年来,随着经济快速发展,社会对高等职业教育提出比以往更高的要求和标准,因此,高职院校应以全面提升人才培养质量为目标,创新和改革育人模式。在高职院校开展岗课赛证综合育人模式,对打造高质量人才培养体系以及推动高职教育发展有着重要现实意义。对此,文章从多方面深入分析高职岗课赛证综合育人内涵,并基于此提出优化该育人模式路径,给相关教育研究者提供参考。
目的:疗效评价是中医药现代化研究关键性的环节,传统中医在疗效评价上多是经验性、主观性的总结,可重复性低,难以量化。目前,为提供中医临床疗效的最佳证据,专家学者往往通过开展一系列临床试验研究来证实中医药治疗疾病的有效性和安全性,随着流行病学和循证医学的快速发展与应用,全国各地中医药类院校纷纷开展中医药循证研究,中医临床试验文献数量得到了显著增加,但被认可程度远远不足。我们认为,原因除了前瞻性试验研究