论文部分内容阅读
关联规则挖掘是数据挖掘的一个重要研究方向,被广泛应用于市场营销、决策分析等领域,其主要目标就是发现数据库中一组对象之间某种有趣关联或相关联系。频繁项集挖掘是关联规则挖掘的关键内容,也是数据挖掘的热点和难点问题。高效的频繁项集挖掘是一个具有重要理论意义和广阔应用前景的研究课题。
近年来,频繁项集的高效算法的研究得到众多学者的关注,研究人员从不同的角度开展研究工作,以提高算法的效率。本文对频繁项集挖掘问题进行了深入的研究和探索,主要研究工作和成果如下:
(1)在对数据挖掘、关联规则挖掘领域传统理论研究的基础上,深入探讨了频繁项集挖掘的经典算法-Apriori算法及其有代表性的Apriori改进算法,并系统分析了无需产生候选项集的FP-growth算法。
(2)针对Apriori算法在挖掘频繁模式时,存在的需要产生大量的候选项集、多次扫描数据库和时空复杂度过高等方面的局限性,本文提出了一种基于待与项集的频繁项集挖掘算法。该算法从两个方面对算法效率进行了改进:①通过对项编码来减少扫描数据库次数;②引入了一个新的概念一待与项集,通过从待与项集中删除项来减少候选项集的数量。实例分析表明,该方法仅需扫描一次数据库,而且具有搜索速度快、节省内存空间等优点。相同条件下的实验结果表明,该算法能有效地提高频繁项集挖掘的效率。
(3)针对基于待与项集的频繁项集挖掘算法在处理大型数据库时存在的瓶颈,提出了基于待与项集的分区挖掘算法的设计思想,并从时间和空间两个方面对其可行性和效率进行了分析。基于待与项集的分区挖掘算法对于解决分布式数据库关联规则挖掘方面具有一定的应用前景。