论文部分内容阅读
近年来,随着信息技术的高速发展,变化多样的数据形式使得传统的静态数据挖掘技术已无法适应高速流动的动态的数据挖掘,数据挖掘的发展方向更加深入。数据流就是其中最新出现的很重要的数据形式,在计算机网络、传感器、金融市场、股票交易以及医疗卫生等众多领域得到了广泛的应用,因此数据流挖掘技术成为了当前研究问题的热点。作为关联规则的基础和核心,数据流频繁项集的挖掘更是成为了数据流挖掘领域的一个热点问题。 数据流最大频繁项集的项集数目相对很少并且已隐含所有的频繁项集,所以数据流中最大频繁项集的挖掘具有很好的时空效率并且有很大的意义,也受到了业界更多的关注。针对数据流最大频繁项集的挖掘,提出了在滑动窗口中基于矩阵的数据流最大频繁项集挖掘方法SWM-MFI,主要采用两个矩阵来存储数据信息:一个矩阵是事务矩阵,存储事务数据;一个矩阵是二项集矩阵,存放频繁2-项集。通过二项集矩阵扩展得到频繁k-项集,基于SWM-MFI算法挖掘出最大频繁项集。经过理论和实验证明该算法具有很好的时效性。 有些传统的数据流频繁闭项集挖掘算法存在搜索空间大和查找效率低的问题,从而造成算法的时间效率较低。针对以上问题,提出了滑动窗口中数据流频繁闭项集挖掘算法DS-MCFI,首先引入两个矩阵:一个矩阵是事务矩阵,存储事务数据;一个矩阵是二项集矩阵,存放频繁2-项集;然后通过二项集矩阵扩展得到频繁k-项集,并通过逻辑与操作得到频繁k-项集的支持度,两个矩阵的相关操作可以明显降低算法的时间复杂度;再将支持度相等的频繁项集存储到数据字典结构中来提高算法的查找效率;最后通过挖掘所有支持度相等的频繁项集中的最大频繁项集组合生成频繁闭项集。经过理论分析和实验证明,DS-MCFI算法具有很好的时空效率。