论文部分内容阅读
数据挖掘是致力于数据分析和理解、揭示数据内部蕴藏知识的技术,它成为未来信息技术应用的重要目标之一。经过十几年的努力,数据挖掘领域产生了许多新概念和方法。特别是最近几年,一些基本概念和方法趋于清晰,它的研究正向着更深入的方向发展。像其它新技术的发展历程一样,数据挖掘技术也必须经过概念提出、概念接受、广泛研究和探索、逐步应用和大量应用等阶段。其中关联规则挖掘是数据挖掘领域中成果颇丰而且比较活跃的研究分支,留给研究者的是更深入的课题。随着数据库规模的日益增大,关联规则挖掘需要在挖掘效率、可用性、精确性等方面得到提升。因此,需要探索新的挖掘理论和模型;需要对一些传统的算法进行改进:也需要研究新的更有效的算法。
国内对于数据挖掘的研究还处于起步阶段,数据挖掘方面的应用也只集中于诸如电信、金融、保险等大行业,在医学信息的数据挖掘方面,国外有更多的研究和应用,不仅把数据挖掘应用于病人及医院的管理方面,而且在辅助医生诊疗方面也有广泛的应用。因此,数据挖掘在我国医疗行业的研究有重要的实际应用价值。
本文在研究关联规则挖掘技术的基础上,结合山东省千佛山医院的信息管理系统,开展了基于关联规则的医学数据的挖掘分析与研究,主要内容包括:1.对现有关联规则挖掘文献进行调研,描述并分析了经典关联规则算法Apriori算法。在此基础上提出了Apriori算法改进,该算法主要考虑Apriori算法中频繁项目集生成的瓶颈问题,通过减少事务数据库扫描次数、压缩进一步迭代扫描事务数的方法对Apriori算法进行改进,通过与Apriori算法的对比性实验,对该算法的性能进行了分析:2.介绍了医院信息系统,着重介绍门诊子系统的结构和功能,并且分析了医疗数据的特点,以医疗数据为例描述了医疗数据预处理的方法,以门诊病人并发症的挖掘为例,分析了关联规则的应用;分析了使用改进算法对医学图像数据挖掘。3.针对一般关联算法在医院信息系统的医学数据挖掘中出现的问题,提出新的算法改进,并进行实验测试,对挖掘结果进行了分析和解释,结果表明可以减少无兴趣规则的数量,从而为临床诊断提供了科学、准确的依据。