论文部分内容阅读
为了解决频繁树模式挖掘中频繁子树的数目通常太大的问题,提出了频繁子树精简基的概念,精简基由相对于一系列支持度闽值的最大频繁子树组成,它是频繁子树的一个子集,可用来估计任一频繁子树的支持度,并能将误差控制在确定范围内.提出了一个在带标号的有根的有序树的数据库中挖掘这种子树精简基的算法,该算法采用最右扩展方法系统地生成所有的频繁有序有根子树.采用的剪枝技术能尽早地剪掉一些不可能生成最大频繁子树的分枝,还采用了启发式的技术来安排计算的次序以尽可能避免代价高的计算.实验结果表明该精简基的大小不到全集的10%,算法