论文部分内容阅读
数据挖掘技术是近年来数据库和人工智能领域研究的热点课题,它引起了科学界和产业界的广泛关注。作为一门交叉性学科,它涉及到机器学习、模式识别、归纳推理、统计学、数据库、数据可视化、高性能计算等多个领域。关联规则是数据挖掘研究中的一个重要的研究内容,它是完成数据挖掘任务的一个重要手段。在关联规则挖掘过程中存在两个问题:,一是产生大项目集;二是产生强关联规则。对于这两个问题,算法的复杂性是瓶颈,因为频繁集的数目和项目的数目成指数增长,所以导致在面对大规模的数据库时,整个算法的耗时巨大,从而最终导致挖掘算法在实际工程中的应用效果差。本文提出一种从大型数据库中挖掘关联规则的快速算法。该算法以经典的Apriori算法为基础,在分析研究已有各种优化算法的基础上,提出自适应步长和扫描树的概念,并采用修剪的方法对Apriori算法进行改进。理论分析表明,它比Apriori算法的应用效率高,实验结果也证实了这一点。在实际的关联规则挖掘中,大量的数据带有时态特性,所以往往需要在时态特性的前提下挖掘关联规则,然而即使是获得了时态关联规则,在实际应用中,仍然需要考虑某种约束条件,如利润约束,这样得到的关联规则才可以更加有效地为实际服务。本文针对实际应用中对于某种约束条件下应用的时态关联规则数据挖掘算法的需求,提出一种基于利润约束的有效生命周期内的时态关联规则挖掘算法(Constraint Temnoral FP-Growth:CT-FP-Growth)该算法根据已给的利润约束条件,在不同利润额度区域内,挖掘有效生命周期内的关联规则。以及有效时间区域,从而提高了数据挖掘的实际应用价值。理论分析与实验结果均表明该算法是合理有效的。最后,将其研究成果应用在医院病人治疗决策支持系统中,对五种同类型的药品进行治疗效果评比,最终结合决策树算法帮助医生制定出有效的医嘱。