论文部分内容阅读
在过去的十几年间研究人员对频繁集挖掘进行了深入广泛的研究,取得了一系列研究成果.这些研究成果已被广泛应用到关联规则挖掘、关联分类和序列模式挖掘等具体应用中.频繁集挖掘已经成为故据挖掘领域的一个重要的研究方向. 近年来在高速网络、事务日志、金融和传感器网络等领域出现了种称为数据流的新的数据类型.它具有与普通数据集截然不同的特点,如持续不断产生数据、数据产生速度快、数据太多以致只能顺序访问一遍数据、无法控制数据产生的次序等.针对数据流的数据挖掘已经成为研究的热点.但因为现存的绝大多数频繁集挖掘算法面向保存在持久存储介质中的数据并且在算法运行过程中需要多次访问数据,它们无法被直接应用到数据流领域.
本文详细讨论了基于数据流的频繁集挖掘,提出了一系列高性能、低空间需求和高准确度的单遍扫描算法:(a)结合频繁项挖掘算法,提出了两个基于数据流中观察到的所有数据的完整频繁集挖掘算法--SINGLE SM:算法和BATCH_SM算法.SINGLE_SM算法逐个处理新产生的事务,而BATCH_SM算法则批量处理新产生的事务.(b)频繁集挖掘算法往往会产生大量的频繁模式,这不仅会影响算法的性能,也会影响对算法结果的理解,解决方法之一就是利用频繁集的无损简化表达方式.结合频繁集的无损简化表达方式提出了两个代表性的算法,其中BORDER-SM算法基于边界集表达方式,CLOSE SM算法基于闭合集表达方式.(c)为了更好地发现数据流的新变化,采用滑动窗口模型来挖掘当前频繁集,提出了基于定长滑动窗口的FW-SM算法和变长滑动窗口的VW SM算法.(d)从数据通信量的角度出发,分析了分布式环境下数据流挖掘算法所应注意的问题,提出了基于分布式数据流的MBP SM算法、PBM SM算法和MFIB SM算法.
此外,通过实验也表明这些算法在挖掘各种规模与特性的数据集时具有较高的效率与可伸缩性.
本文具有以下创新点:(a)提出了显著集和显著模式的概念,使用了统一的标准来衡量算法的准确性. (b)BORDER-SM算法首次将边界集和产生集表达方式结合在一起,避免在更新过程中产生过多的候选模式;CLOSE-SM算法则提出使用模式的支持度来寻找闭合模式的方法,支持搜索空间的有效剪裁.BORDER-SM算法和CLOSE-SM算法是基于频繁集简化表达方式的增量挖掘算法的系统总结,不仅仅适用于数据流,也适用于普通数据集.(c)与现有的算法相比,FW-SM算法和VW-SM算法是真正的单遍扫描算法.FW-SM算法将窗口分成等长的分区,而VW-SM算法中分区的大小随着窗口变化而变化.它们独特的窗口设计保证了在窗口内容发生变化时,仍能保证算法结果的准确.(d)MSIB_SM 算法首先根据局部最大频繁集产生全局最大频繁集,然后根据全局最大频繁集来确定需要传输的局部显著集的子集.它可以在不影响算法准确性的前提下显著地降低数据通信量