论文部分内容阅读
随着信息处理技术的不断发展以及它在各行各业的普及与应用,人们对数据的产生与收集方法越来越丰富,导致了数据量的爆炸性增长。对数据的传统处理方法无法满足人们对数据处理的更高需求,如何从大量的数据中发现人们所关注的准确数据,并发现数据与事务现象之间的内在关系,是在处理数据过程中面临的难题,从而诞生了数据挖掘技术。目前,将数据挖掘应用到医学数据挖掘方面,不仅将数据挖掘应用到医生的辅助诊疗方面,并且也将数据挖掘用于对病人与医院的信息管理方面。论文在对数据挖掘技术与关联规则挖掘技术的研究之上,并以湖南省长沙市马王堆医院的数据为基础,展开对关联规则算法在医学数据中的数据挖掘分析与应用研究,主要的内容如下:对关联规则中的经典算法Apriori算法进行了分析。考虑Apriori算法中的主要瓶颈,如频繁项目集生成问题,数据库多次扫描问题等,通过减少扫描数据库次数与压缩进一步迭代扫描事务数相结合的方法,提出对Apriori算法的改进算法,通过实验将Apriori算法在改进的前后进行实验测试与对比,并对挖掘结果进行分析,结果表明了Apriori改进算法减少了无兴趣规则的数目,从而提高了改进算法的效率,能更好地实现科学、准确的挖掘决策数据。对医院信息系统进行了介绍,主要对门诊子系统进行了结构与功能介绍,并对医疗数据进行了分析,将改进算法应用到医院信息管理系统中,以门诊病人并发症数据为挖掘数据,分析了其关联规则,应用关联规则后可以减少诊断的错误几率,并能发现隐含病情间的关联,就能发现疾病中未知疾病的发病症状,辅助医生确定相对应的诊断标准,也可以依据疾病分布特征来确定对未患病人(如高危人群)进行相对应保护与防护措施等;对医学图像数据进行数据挖掘。通过对常用的医学图像挖掘算法FP_tree算法的分析,针对其不足提出一种能更适合大量医学图像数据的挖掘算法,改进算法是将生成的频繁集数据压缩进多棵频繁模式二叉树中,用它来存放项目的关联信息,最后由模式树生成频繁集。改善了Apriori算法与用频繁模式树FP_tree算法的不足,从而提高了对关联规则的挖掘效率;并将改进后的FP_tree算法应用到乳腺癌图像的挖掘中,生成最终的挖掘规则,然后分析出诱发乳腺癌的相关病因,为科学治疗与预防提供科学依据。