论文部分内容阅读
数据挖掘在最近几年里已被广泛的研究和应用,而频繁项集挖掘则是诸如关联规则挖掘、序列模式挖掘等数据挖掘问题中的关键步骤,因此对它的研究具有重要的理论和实际价值。本文的主要工作是对频繁项集挖掘领域内的经典算法FP-Growth进行改进。针对该算法存在的缺陷:挖掘过程中需要递归生成大量的条件FP-Tree来保存投影信息,过度消耗了存储空间。首先分析了造成这种缺陷的原因:原算法对项的处理顺序与投影方向重合,即“向前处理,向前投影”,若直接用原FP-Tree来保存投影信息,则会覆盖掉将来要用到的信息,造成信息的丢失,因此需要条件FP-Tree来保存投影信息。然后给出了相应的改进策略:调整原算法对项的处理顺序或投影方向,使原FP-Tree能够直接存储投影信息,这样算法的所有工作便可完全基于原FP-Tree,从而不再需要任何条件FP-Tree。以此为基础,提出了一种基于FP-Tree的改进算法:NCTree-Growth,并详细讨论了它的两种不同的实现方案:“向后处理,向前投影”和“向前处理,向后投影”,给出了它们的算法伪代码描述和相互间的比较。最后通过对NCTree-Growth算法的进一步优化,使其能够充分利用前面的计算结果,从而减少了投影次数,提高了算法效率。实验表明,NCTree-Growth的内存开销小于FP-Growth,性能也得到了提升。