论文部分内容阅读
现代科学技术的进步与发展,加快了医学信息的数字化,医疗系统包括中医系统也在快速的健全和完备,随之而来的是中医病案数据量的急剧突增,如何利用这海量的中医药数据来防控疾病,诊断疾病,提供优化方案,辅助诊治,是当前业内专家高度关注的课题。传统单机平台下对大数据集的挖掘处理常受困于数据存储和计算空间不足的窘境,其计算效率无法明显提高。在此背景下,本文提出了基于Hadoop平台的两种中医数据挖掘方案来处理庞大的中医数据,采用并行化Apriori算法对中药、症状和证型混合数据进行挖掘;采用并行化K近邻分类算法对未知的症状群进行分类,预测其归属证型。同时基于Hadoop平台搭建了中医病案数据挖掘系统,主要研究内容如下。首先对两种经典数据挖掘算法进行并行化改造,针对Apriori算法并行计算过程中会产生大量键值对以及节点IO频繁读写等不足之处,设计优化方案,借助Hbase存储中间过程数据,同时以迭代组合递归的方式代替传统的自连接方式来产生候选项集,从而有效的提高迭代计算速率,加速频繁项集的产生;对K近邻算法进行并行化设计,对症状等级量化取值,并归一化处理,减少由于症状域值不同对距离计算的影响,进而更加客观的对症状组进行分类。然后在搭建好的Hadoop2.0集群中,利用并行化改造后的Apriori算法,对中医哮喘病案数据进行挖掘分析,获得了中药配伍规律、用药与证型、症状的配伍规律以及症状与证型之间关联关系,同时基于KNN分类算法对症状群进行预测归属的证型。实验结果表明,其挖掘结果与理论基本匹配,具有一定的实际指导意义。最后系统借助Webservice技术,实现以Hadoop集群作为服务端,以Swing技术构建客户端界面进行交互的C/S架构方案,建立基于Hadoop的中医病案挖掘系统。该系统主要集成了集群配置、病案数据管理和数据挖掘三大功能模块。通过对系统的各个功能模块的测试,结果表明该系统具有良好的交互性和较完备的功能。