论文部分内容阅读
随着信息技术的日益进步,积累的数据量也在飞速增加。这导致了海量的数据存储在数据库,数据仓库和其他存储库中。因此,数据挖掘开始越来越引起人们的重视,而分析数据库以提取有用或以前未知的模式和规则,称之为关联规则挖掘。在数据挖掘中,关联规则挖掘成为描述性技术的重要任务之一,可以将其定义为从大量数据集中发现有意义的模式。而挖掘频繁项目集是关联规则挖掘的基础。因此,本文研究问题就是研究如何快速挖掘频繁项目集。本文首先介绍了过去几十年来已提出的许多经典频繁项目集挖掘算法,包括基于水平布局的技术,基于垂直布局的技术和基于矩阵布局的技术,为提出性能和功能更优的频繁项目集挖掘算法作好理论准备。但是为了挖掘频繁模式,目前大多数技术都需要遭受多次重复数据库扫描,候选集生成(Apriori算法),内存消耗问题(FP-tree算法)以及更多问题的困扰。正如在零售行业中,许多事务数据库包含多次相同的事务集合,为了应用这个想法,针对Apriori算法和FP-tree算法的缺陷,本文中我们提出了一种新技术,它结合了当前的Apriori(改进的Apriori)和FP-tree技术以保证比经典的apriori算法更好的性能,新方法首先利用改进的Apriori算法寻找最大频繁项目集,然后仅考虑数据库中的包含1项集但不包括在最大频繁项目集中的频繁元素的那些事务来修剪数据库,并基于修剪的数据库构造FP-tree,并通过实践证明,在购物篮数据集中新方法无论是在时间和内存消耗方面都要优于Apriori算法和FP-tree算法。