论文部分内容阅读
1.研究背景中医古籍作为重要的中医知识载体,记录了丰富的中医理论和实践经验,对于克服人类健康问题发挥着不可替代的作用。《伤寒论》理法方药融为一体,确立了六经辨证体系,奠定了中医辨证论治的基础,是中医临床医学的经典,是中医知识结构的重要基石。充分研究、挖掘和利用《伤寒论》中所蕴含的知识,能够指导临床诊疗并为科研提供思路。中医临床和文献专家,已对《伤寒论》进行大量旁校、参正、校注、语译的工作,便于后世理解和研究原文含义。现代科学技术的发展,为中医古籍整理注入的生机和活力。借助数字化技术,不同版本《伤寒论》的原始面貌得以流传,确保了形式上的完整性。数据挖掘、机器学习能够分析《伤寒论》方证、药证之间的非映射关系,也就是根据数学模型解析部分概念之间的规律。动态不确定因果图、偏序结构图以及主题图等技术则通过构建图数据库的形式理清原文逻辑。由于《伤寒论》内容多为叙事性描述,概念种类繁多,概念之间的关系复杂。目前的研究工作暂未系统梳理《伤寒论》概念和概念关系,完整呈现原文知识体系。因此需要借助适合的信息技术描述《伤寒论》的逻辑,使计算机能够充分理解条文内涵,更加便捷、高效得指导临床实践。本体作为一种领域知识的形式化表达,是表示知识的重要方法。使用本体的优势在于构建易于理解的、明确的知识模型,展示概念之间的关系。知识图谱利用本体作为模式层,形式化地表示概念关系,以三元关系对的形式组织、管理知识。基于本体方法构建《伤寒论》知识图谱能够展示《伤寒论》版本的流传情况,完整刻画原文知识框架,还原概念之间的逻辑关系。因此,本研究将以唐本《伤寒论》为例,探索基于本体的知识图谱技术在中医古籍领域的具体应用。2.研究目的通过构建《伤寒论》版本的本体和知识图谱,能够循证溯源,清晰地勾勒《伤寒论》版本流传脉络。从不同版本中选取适当的作为研究材料。采用本体方法,系统、完整地梳理和解析《伤寒论》中的概念和概念关系,准确地定义和描述《伤寒论》实体关系对,形成《伤寒论》知识本体与知识图谱。3.研究内容与方法3.1基于本体构建《伤寒论》版本的知识图谱将版本源流文献以及古籍书目作为版本本体的研究语料。采用人工标注的方式从语料中获取能够体现流传情况的复合实体,按照国际标准、国家标准、行业标准、辞典、教材的权威顺序查找实体所对应的概念类别,选取《古籍著录规则》(GB/T 3792.7-1987)《中医古籍整理规范》(ZYYXH/T362-371-2012)《图书馆情报与文献学名词》《中国古籍版本学》作为版本概念的来源。在版本概念的基础上提取版本的概念关系。概念关系应满足定义准确、用词简洁、使用范围明确的原则。参考已明确定义的古籍版本概念关系提取《伤寒论》版本的概念关系,新增的版本概念关系根据语料库的原文语义进行定义。查阅文献,获得古籍版本类结构本体、中医学术传承脉络和版本源流知识类结构三个本体。综合复用上述本体,对版本概念进行分类设计,形成《伤寒论》版本的等级体系;组织版本概念和概念关系,完成版本知识框架的构建。将获取的《伤寒论》版本实例添加至不同概念类别,作为版本概念的具体说明。基于版本的知识框架进行实例和关系的抽取,构建三元关系对,储存于Neo4j数据库,完成《伤寒论》版本的知识图谱的构建。3.2 选择适当版本作为《伤寒论》知识图谱构建的语料跟据《伤寒论》版本知识图谱提供的信息,以出版时间与祖本接近(旧本)、内容相对完整(足本)、经过权威校注(精本)、有明确流传来源(争议少)、抄写或翻刻次数少(编撰少)为原则选择《伤寒论》的研究版本。最终将钱超尘于2020年最新校注出版的唐本《伤寒论》(《千金翼方》元大德梅溪书院善本)作为构建知识图谱的语料进行研究。3.3基于本体构建唐本《伤寒论》的知识图谱根据《胡希恕伤寒论讲座》,结合古汉语词句特征解析原文语义,提取原文概念。由于术语是特定学科领域用来表示概念称谓的集合,因此《伤寒论》概念提取的过程也是术语提取的过程。概念的提取应遵循准确、内容完整、粒度适中的原则。概念的提取包括以下三种情况:逻辑关系保留,例如“脾胃虚寒”;复合术语拆解,例如“胸中郁郁而痛”拆解为“胸中郁郁”和“胸中痛”;复合术语保留,例如“脉浮数”。通过辨析概念的语义,确定其上位术语,并对上位术语进行定义,定义应具有权威性、适用性和准确性。上位术语定义的来源包括国际疾病分类代码(ICD-11)、《中医基础理论术语》(GB/T 20348-2006)《中医临床诊疗术语疾病部分》(GB/T16751.1-1997)《中医临床诊疗术语证候部分》(GB/T16751.2-1997)《中医临床诊疗术语治法部分》(GB/T16751.3-1997)《中医药学名词》(第二版)《中医大辞典》《中医诊断学》等。对于上述多来源的定义比较分析,选取与原文语义最贴近的概念作为上位术语,并确定上位术语的定义。在概念的基础上提取唐本《伤寒论》的概念关系。概念关系的提取包括三种情况,分别为提取动宾结构中的动词,例如:“寒实结胸无热证者,与三物小白散”,其中“与”可以理解为“使用”,提取方剂“三物小白散”作为“与”的宾语,构成三元关系对为:(寒实结胸,与,三物小白散);提取概念之间的连词,例如:“三阳合病发汗则谵语”。“则”作为连词表示因果关系,说明在三阳合病的情况下错误发汗会引起谵语,构成三元关系对为:(发汗,则,谵语);补充省略关系词,例如:“阳已虚,尺中弱涩者,复不可下”。病机“阳已虚”是症状“尺中弱涩”的原因,因此概念之间存在关系“引起”,将概念关系补全,构成三元关系对为:(阳已虚,引起,尺中弱涩)。提取概念关系的基础上进一步细化概念关系,例如:“使用方剂”根据推荐强调的不同细化为“主之”、“与之”、“宜”。新增的概念关系根据WordNet进行定义,并归纳至中医语义关系结构框架。复用统一医学语言系统框架和中医药学语言体系,构建唐本《伤寒论》的等级体系和知识框架。并根据原文的等级体系添加唐本《伤寒论》概念的实体。将知识本体作为模式层提取原文的三元关系对,导入Neo4j数据库,以可视化形式展示《伤寒论》的知识。4.研究结果本研究首次从语义层对《伤寒论》知识体系进行准确细致地刻画和描述,采用本体方法进行《伤寒论》的知识组织与表示,融合了现代信息技术,将有效地促进《伤寒论》的知识传承与创新应用。本研究的创新性成果主要有:(1)研究获得《伤寒论》流传版本相关的概念21个,概念实例158个;关系16个,关系实例133个;构建了《伤寒论》流传版本的等级体系与知识框架,形成《伤寒论》流传版本的知识本体;(2)研究获得唐本《伤寒论》内容相关的概念25个,概念实例4536个;关系22个,关系实例4499个;构建了唐本《伤寒论》内容的等级体系与知识框架,并进而构建三元关系对3651个,形成唐本《伤寒论》知识本体;(3)首次采用本体方法,构建了《伤寒论》流传版本的知识图谱,以及唐本《伤寒论》知识图谱。5.结论通过应用本体和知识图谱的现代信息技术,清晰刻画《伤寒论》的流传脉络,为构建动态性中医古籍版本知识提供研究基础。采用一个版本和一个注解相结合的方式能使研究者够充分理解《伤寒论》语义,在理解语义的基础上梳理的原文知识,形成的《伤寒论》本体,能够与现有中医知识本体融合,扩展本体覆盖的类别范围,完善中医领域的概念分类,为中医古籍领域的本体构建提供方法学上的参考。通过构建《伤寒论》的知识图谱,使多种概念相互连接。通过上述研究支持综合性知识检索,实现《伤寒论》知识资源的有效整合,从而提供全面、准确、智能的知识服务。