论文部分内容阅读
在过去的二十多年里,随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们收集数据的能力有了巨大的提高,积累的数据越来越多。海量的数据背后隐藏着许多重要的、有趣的信息,人们希望能够对其进行更高层次的分析,以便发现有用的知识,从而更好地利用这些数据,为管理者提供强有力的决策支持。传统的数据统计分析方法已经不能够满足目前的需要,于是数据挖掘技术便应运而生了。数据挖掘(Data Mining),也称为数据库中的知识发现,是指从大量的、不完全的、有噪声的、模糊的数据中抽取出潜在的、有效的、新颖的、有用的和最终可以理解和运用的知识的过程。它是涉及数据库、计算理论、人工智能、统计理论、认知科学等众多学科的一门交叉学科,能够对数据进行关联分析、分类、聚类、预测、孤立点分析、演变分析。尽管数据挖掘技术诞生不久,但它广泛的应用前景和巨大的魅力,吸引了众多学者极大的研究热情和产业界人士的广泛关注。关联分析是数据挖掘中最重要的研究领域之一。Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题[12]。以后众多的研究人员对关联规则的挖掘问题进行了大量的研究[13,14,15,17,19],他们的工作包括对原有的算法进行优化,如引入随机采样、并行的思想等,以提高算法挖掘规则的效率,对关联规则的应用进行推广。一般而言,从数据库中发现频繁模式是关联分析的核心任务,因为从频繁模式生成关联规则只是一个简单的计算问题。运动是自然界永恒的真理。我们所获得的数据也是在动态地改变着。相应的,我们运用数据挖掘技术从数据中获得的知识也要随着数据的改变而改变,以反映出新的趋势。增量算法能够通过处理新增加的数据来满足对原有知识的更新、加强的需要,这种方法避免了对整个数据集重新进行挖掘。1989年,Paul Utgoff等人提出了决策树的增量更新算法ID5R[8,9],使得著名的决策树算法ID3[43]能够根据动态增加的实例对整个树的结构进行调整。关联规则的增量挖掘算法FUP和FUP2[5,21]是由David W. Cheung等人于1996,1997年提出的。它们采用类似于Apriori[12]算法的“产生-验证”候选集的方法,对新增加的数据集进