论文部分内容阅读
传统数据挖掘的对象是传统数据或静态数据,其来源于关系数据库、数据仓库和事务数据库里面的数据。现实世界和工程实践中产生了大量的流数据,这种数据不同于传统的静态数据,是一种具有实时、快速和连续到达特点的动态数据。由于流数据的上述特点,对其进行有效处理和挖掘遇到了极大的挑战,使得应用于传统数据挖掘的技术和方法不能很好的适应流数据。如何使用有限的内存空间和CPU的处理速度进行快速和近似的频繁模式挖掘是流数据挖掘的基本问题,具有非常重要的价值和实践意义。 近年来,在流数据中挖掘频繁项集是一个非常新的研究课题。以往的解决方法,大多是在挖掘频繁项集时使用一个固定的最小支持度。然而,在实际情况中,支持度阈值应该随用户需求和流数据的特点而改变。本文提出了一种名为VSSDM(Variable Support for Steam Data Mining)的算法,用于在流数据中以可变支持度挖掘频繁项集。本文使用概要向量结构SYV(Synopsis Vector)高度压缩并存储历史流数据。该算法可以让用户改变支持度阈值,找出自开始以来流数据中所有的频繁项集。