论文部分内容阅读
随着计算机技术、网络技术和通信技术的迅速发展,传统的动态数据挖掘方法很难适应动态数据库和实时数据库的不断更新,为了采取分而治之的思想来降低动态环境的复杂性,粒度计算方法被应用到动态数据挖掘中,其通过改变信息粒度的大小来隐藏或揭示挖掘对象的细节,从而达到发现不同层次信息的目的。在动态数据挖掘环境下构建基于粒度计算的数据挖掘模型,实现对动态数据的自适应处理具有重要的研究意义。论文针对数据流的频繁模式挖掘问题,从研究滑动窗口的频繁闭项集挖掘入手,探讨了基于粒度计算的数据流频繁模式挖掘技术。首先,构建了复合粒度,为自适应处理动态数据提供粒度计算的理论基础;论文在构建了信息窗口下的对象粒、属性粒和结构粒等复合粒度之后,提出了粒度计算和转换的方法,从而实现不同问题空间的粒度转换。然后,提出了频繁闭项集的生成方法;该方法通过混合进制映射生成模糊频繁闭项集的搜索空间,运用对象粒度计算产生模糊频繁闭项集,运用属性粒度计算发现频繁闭项集。接着,建立了嵌入式粒度计算模型;该模型能够根据不同数据特点自适应的构建不同层次的粒度,通过超级状态粒化成子状态的方法来降低挖掘环境的复杂性,即一方面,运用结构粒与对象粒的转换方法,实现用粒度计算思想来求解不同问题空间的模糊频繁闭项集;另一方面,运用对象粒向属性粒的转换方法求解问题空间的频繁闭项集。最后,论文研究了数据流上滑动窗口内的首次数据读入和数据更新技术,结合建立的嵌入式粒度计算模型,提出了基于嵌入式粒度计算的数据流频繁模式挖掘模型。该模型能够在首次读入数据阶段和数据更新阶段,运用嵌入式粒度计算来实时挖掘频繁闭项集。与典型的挖掘算法相比,实验证明该模型在不同特点的数据集上具有较好的挖掘效率,在动态挖掘过程中内存占用相对稳定,特别是在频繁项集数目较多时,内存占用比其它算法少。为了拓展这个挖掘模型,论文在时间衰减的界标窗口上,运用基于嵌入式粒度计算的数据流频繁模式挖掘模型来发现最大频繁项集。实验证明该模型也具有较好的挖掘效率和空间利用率,从而也体现了它在窗口模型上的挖掘通用性。