基于数据流的频繁集挖掘研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:liucheng333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的十几年间研究人员对频繁集挖掘进行了深入广泛的研究,取得了一系列研究成果.这些研究成果已被广泛应用到关联规则挖掘、关联分类和序列模式挖掘等具体应用中.频繁集挖掘已经成为故据挖掘领域的一个重要的研究方向. 近年来在高速网络、事务日志、金融和传感器网络等领域出现了种称为数据流的新的数据类型.它具有与普通数据集截然不同的特点,如持续不断产生数据、数据产生速度快、数据太多以致只能顺序访问一遍数据、无法控制数据产生的次序等.针对数据流的数据挖掘已经成为研究的热点.但因为现存的绝大多数频繁集挖掘算法面向保存在持久存储介质中的数据并且在算法运行过程中需要多次访问数据,它们无法被直接应用到数据流领域. 本文详细讨论了基于数据流的频繁集挖掘,提出了一系列高性能、低空间需求和高准确度的单遍扫描算法:(a)结合频繁项挖掘算法,提出了两个基于数据流中观察到的所有数据的完整频繁集挖掘算法--SINGLE SM:算法和BATCH_SM算法.SINGLE_SM算法逐个处理新产生的事务,而BATCH_SM算法则批量处理新产生的事务.(b)频繁集挖掘算法往往会产生大量的频繁模式,这不仅会影响算法的性能,也会影响对算法结果的理解,解决方法之一就是利用频繁集的无损简化表达方式.结合频繁集的无损简化表达方式提出了两个代表性的算法,其中BORDER-SM算法基于边界集表达方式,CLOSE SM算法基于闭合集表达方式.(c)为了更好地发现数据流的新变化,采用滑动窗口模型来挖掘当前频繁集,提出了基于定长滑动窗口的FW-SM算法和变长滑动窗口的VW SM算法.(d)从数据通信量的角度出发,分析了分布式环境下数据流挖掘算法所应注意的问题,提出了基于分布式数据流的MBP SM算法、PBM SM算法和MFIB SM算法. 此外,通过实验也表明这些算法在挖掘各种规模与特性的数据集时具有较高的效率与可伸缩性. 本文具有以下创新点:(a)提出了显著集和显著模式的概念,使用了统一的标准来衡量算法的准确性. (b)BORDER-SM算法首次将边界集和产生集表达方式结合在一起,避免在更新过程中产生过多的候选模式;CLOSE-SM算法则提出使用模式的支持度来寻找闭合模式的方法,支持搜索空间的有效剪裁.BORDER-SM算法和CLOSE-SM算法是基于频繁集简化表达方式的增量挖掘算法的系统总结,不仅仅适用于数据流,也适用于普通数据集.(c)与现有的算法相比,FW-SM算法和VW-SM算法是真正的单遍扫描算法.FW-SM算法将窗口分成等长的分区,而VW-SM算法中分区的大小随着窗口变化而变化.它们独特的窗口设计保证了在窗口内容发生变化时,仍能保证算法结果的准确.(d)MSIB_SM 算法首先根据局部最大频繁集产生全局最大频繁集,然后根据全局最大频繁集来确定需要传输的局部显著集的子集.它可以在不影响算法准确性的前提下显著地降低数据通信量
其他文献
本文在自动机理论的基础上,研究了表示正则语言的确定型有限自动机的最小化填表算法和确定型有限自动机经并、交运算后的最小化问题。本文首先介绍了确定型有限自动机的一种最
近年来,随着网络的飞速发展,分布式环境中的访问控制和授权管理作为安全服务的一个重要领域得到了快速的发展。公钥基础设施PKI有效的解决了身份认证、数据保密、数据完整等
随着全球信息化发展和Internet普及,计算机网络安全逐渐成为人们关注的焦点问题。目前网络通信主要提供五种安全服务,即身份认证服务、访问控制服务、机密性服务、完整性服务
随着嵌入式技术日新月异的发展,它被应用在多种行业和领域,而且朝着智能化的方向在发展。当前中国的水利发电前景广阔,众多中小型水电站机组亟待升级,以实现自动化和信息化。
随着移动设备的不断更新和移动互联网的快速发展,人们可以随时随地通过移动设备接入互联网进行日常工作、学习和娱乐,与此同时运维工作也开始由以个人电脑(PC)和互联网(Interne
近几年,由于煤炭的大量开采,煤矿的突水事故频繁发生,给人民的生命财产带来了危害,因此对煤矿地下水位预测的研究有着实际意义。煤矿地下水位预测是一个具有影响因素繁多、高度非
WEB服务技术随着Internet的广泛应用得到迅速的发展,它是在继承现有的各种系统框架和实现技术的基础上提出的一种解决不同平台、不同协议、不同开发语言下的应用系统集成问题
随着无线通信技术的进步,多跳无线Ad hoc网络再次成为当前无线网络研究的一个重要领域。和3G网络、WLAN不同,无线Ad hoc网络是不需要任何基础设施的网络,任意两个节点间的通
基于内容的图像检索技术(Content‐based image retrieval),即CBIR是当前一个热门的研究课题。它的提出能够更高效地解决在海量图像库中找到所需内容的问题。在基于内容的图像检
时间同步是无线传感器网络(Wireless Sensor Network,WSN)的一项关键技术,它为分布式系统提供了一个共同的时间基准,在数据融合、功率管理、传输调度、定位跟踪等方面都具有重要意