数据流中频繁项集挖掘研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:livan_s
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流是一个按时间到来的有序的项集。和传统静态数据库中的数据不同的是,数据流是连续的、无限的、通常以很高的速度到来的并且数据分布随着时间而改变。由于数据流的特点使得传统的频繁项集挖掘算法难以适用。许多研究人员对数据流中频繁项集挖掘进行了研究。目前,数据流中频繁项集挖掘已成为数据挖掘中的基本问题之一。 针对数据流的特点,论文对数据流处理技术和数据流挖掘中的关键问题进行了研究和总结。论文对一些关键问题的解决技术进行了研究。论文对经典的频繁项集挖掘算法进行了介绍和实验。通过实验和分析可以看出数据流的无限性、高速性使得经典的频繁项集挖掘算法难以适用到数据流中。此外,论文对于当前现存的一些数据流中频繁项集算法进行了介绍,分析和总结。 本文最后提出了FP-CountMin算法。该算法将数据流分段并利用改进的FP-growth算法挖掘分段中的频繁项集。然后,利用Count Min Sketch进行项集计数。算法解决了压缩统计和计算快速高效的问题。通过和FP-DS算法的实验对比,FP-CountMin算法具有较好的时间效率。
其他文献
计算机所存储的信息量呈爆炸式增长,关系型数据库在应对大规模数据和高并发时候显得捉襟见肘,因此在一些应用场景正在逐渐被非关系型数据库取代,近年来非关系型数据库的研究
PDF文档的广泛应用使获取其中的信息成为研究热点。PDF文档具有面向页面描述的特点,其内容的逻辑关系不明显,给信息提取带来了困难。本文面向数学表达式检索的需要,从PDF文档
随着虚拟技术的应用越来越广泛,虚拟集群成为云端一种主要执行环境。虚拟集群和传统的高性能计算平台相比,在可扩展,可配置,可维护等方面表现出了许多优越性。因此,虚拟集群
由于NAND Flash的低访问延迟和低能耗等优点,伴随着其容量的不断增长,越来越多的服务器采用闪存作为存储器。然而,不同存储服务器之间的I/O负载不均衡造成了各闪存服务器之间
人脸识别是生物识别技术中的一种。与其他生物识别技术不同,人脸识别具有使用者友好和可以被大量应用的显著优点,而这也使得它成为模式识别的一个具有挑战性的课题。人脸识别
DDoS攻击是目前网络违法行为中,不法分子使用的终极武器。由于攻击工具易于开发、攻击危害程度大、以及攻击数据包的源地址伪造而使得攻击者不易被发现,等等这些原因,使DDoS攻击
聚类是数据分析的重要工具,主要包括划分法、层次法、密度算法、图论方法、网格算法以及模型算法等方法,其中模糊C均值算法(FCM)是目前最常用的算法之一。如何提高聚类算法的
软件安全事件的频繁发生引起人们极大关注,对软件的安全性进行准确客观地分析与评估,是软件安全保障的前提和必要条件,本文正是基于此点展开论述与研究的。 为有效表示和检测
数据挖掘是从20世纪90年代以来迅速发展起来的一门新兴技术.其处理对象是大量的日常业务数据,目的是将隐含的、尚不为人知的,同时又是潜在有用的信息从数据中提取出来.机器学
当前数字信息技术和网络高速发展,嵌入式系统已经广泛地渗透到科学研究、工程设计、军事技术、各类产业和商业、文化、艺术以及人们日常生活等方方面面。随着嵌入式系统应用