论文部分内容阅读
数据挖掘是当今人工智能和数据库研究方面最富活力的领域。数据挖掘是指从大量的数据中发现潜在的、有用的知识的过程。关联规则数据挖掘则是数据挖掘的一个主要研究内容。而频繁项目集的发现是关联规则数据挖掘的核心问题。 关联规则挖掘算法在整个关联规则挖掘中占有十分重要的地位。只有一个好的算法才能保证挖掘具有良好的性能。事实上,对关联规则挖掘的研究首先是对关联规则挖掘算法的研究,挖掘算法的效率直接影响着关联规则挖掘的应用。 关联规则挖掘的经典算法,其核心思想是基于两阶段频繁项目集理论的递推方法,尽管经过不断的改进,但是基于这一思想的算法不可避免的会遇到两个不可克服的问题:过多的中间候选频繁项目集和重复扫描数据库,这导致算法的效率不能适应某些场合的需要。 本文首先对数据挖掘作了讨论,包括数据挖掘的概念、数据挖掘的理论基础、数据挖掘的主要问题和数据挖掘的分类等。然后,对关联规则挖掘算法做了深入的研究,分析总结了关联规则中经典的Apriori算法及其改进算法(FUP)。为了使在增加新的数据后,能够充分运用以前挖掘到的知识来提高挖掘的效率,首先提出了一个新的概念—敏感度。然后从敏感度和时间效率出发对增量式更新算法进行了改进,并通过一个实际例子对改进算法和原算法(FUP)做了分析和比较。最后通过实验对改进算法的性能做了比较分析,其优点是能较好地发现新增数据中的新模式,在挖掘过程中显示了良好的空间和时间性能,并具有较高的敏感性。