论文部分内容阅读
我国中医学是人类知识宝库的重要组成部分。中医学在漫长的发展过程中,形成了自己独特的“辩证论治”理念。然而,长期以来计算机对中医信息分析处理基本上仍处于浅层的、经验性的知识应用,难以对中医的诊断和治疗过程给出合理的解释。数据挖掘指的是从大量数据中提取出有效的、新颖的、潜在有用的,以及最终可理解的模式的高级过程。关联分析是数据挖掘研究的一个十分重要的方面。关联规则挖掘侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多个域间的依赖关系。使用关联规则挖掘方法,分析中医诊疗数据,可以挖掘出中医学在诊断和治疗中的潜在知识。本论文基于北京市科技计划项目《中风病个体诊疗规律及综合治疗方案的研究》,以中风病诊疗为背景,借助课题前期开发的管理信息系统的数据,挖掘中医对中风病的诊断和治疗的规律、方法等知识,为建立中医上可行的演绎知识体系提供支持。本文的工作主要有以下几点:(1)分析课题背景,确定研究目标,提出4个需解决的主要问题。(2)在对数据挖掘进行简要综述的基础上,重点研究了关联挖掘方法。介绍了关联挖掘中基于Apriori算法和FP-growth算法的频繁项集挖掘过程,同时针对中医诊疗知识发现这一复杂特殊的多层多维数值类型的关联挖掘问题,分别介绍了多层关联规则、多维关联规则、数量关联规则的具体挖掘方法。(3)根据中医诊疗数据的特征,提出了一整套数据预处理方法,结合数据清理、集成、变换和归约等技术对中医原始数据进行了规范化处理。(4)在研究过程中,成功地完成了从数据预处理(仅数值型数据离散化部分)到关联挖掘(基于Apriori)以及规则显示整个流程的MATLAB程序。同时,针对频繁项集过多的问题,提出在FP-growth基础上进行改进的关键项抽取算法KEFP-growth,忽略了在分析时不关心的频繁项集,并使用VC++语言进行了算法实现,达到了较好的挖掘效率。关联挖掘实验结果良好,得到了中医专家满意的关联规则。本文使用关联分析方法成功地完成了中医中风病证候诊断和治疗的相关性研究,也为中医学的知识发现提供了进一步研究的思路。