论文部分内容阅读
挖掘事务数据库、时间序列数据库中的频繁模式已经成为数据挖掘中很受关注的研究方向。以前的研究大致可以归纳为两类:一类是类似于Apriori的候选集产生与测试方法,但是在频繁模式较长时,生成候选集需要很大开销;另一类是不产生候选集的算法如FP-growth算法,它比Apriori算法有较大的性能提高,但仍存在着一定的缺点:通过条件模式基的分析产生频繁模式仍然需要大量的开销。 本文针对FP-growth算法的不足,给出一种基于频繁模式树的频繁模式挖掘算法FP-reduce。它采用FP-tree的数据结构来存储所有的频繁模式信息并对FP-树的每一个结点都进行剩余保存,即对每一项集中的每一项都复制一份除去该项的剩余项集,并将其添加到FP-树中,这样就可以在保存了原来项集的信息的基础上对原来的项集进行处理:保留或者删除,而不丢失信息。剩余保存使得所需计算的频繁模式不断地缩短,最终可得到所有的二项以上的频繁项集形成的FP-树。 理论和实验表明,该算法具有优良的性能,特别是当数据集扩大到一定程度后,FP-reduce在线性方面要优于FP-growth。