数据流频繁模式挖掘算法的研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:averyhut
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据流是一种以高速连续形式到来的有序项集,它不同于传统的数据库中的数据。数据流具有连续、实时、无限等特点,并且是快速到来的数据。由于流数据明显区别于静态数据,现有的对数据频繁项集挖掘的算法和技术很难适用于数据流。现在很多学者对数据流中的频繁项集挖掘进行了研究,数据流的频繁项集挖掘已经成为了数据挖掘任务中的主要问题之一。论文对国内外数据流挖掘的研究现状进行了介绍,对数据挖掘的应用和相关挖掘技术,数据流的频繁模式挖掘的主要问题和数据流挖掘窗口机制进行了概述。针对现有的数据流频繁模式挖掘算法:挖掘历史事务数据流中的频繁项集DSM-FI算法、挖掘任意滑动时间窗口内的频繁模式MSW算法、挖掘滑动窗口中的事务数据的频繁项集MFI-TransactionSW算法分别进行了分析和总结。基于MFI-TransactionSW算法提出了界标窗口中的频繁项集挖掘算法MFI-TransactionLW算法,该算法采用位图结构存储项,同时不断更新BSIR-list头项列表,创建BSFP-tree频繁模式树,通过自顶向下的搜索策略来发项频繁项集。通过用例分析来对MFI-TransactionSW算法和MFI-TransactionLW算法进行存储结构的比较,用实验证明了MFI-TransactionLW算法比MFI-TransactionSW算法执行的时间效率高,所占用的内存空间少。本文最后提出了一种改进的最大频繁项集挖掘算法DSMMFI-DS算法,该算法将流数据按一定全序顺序排序存入DSFI-list列表中,然后按全序排序后的顺序存储到类似概要数据结构的DSSEFI-tree树中,接着删除树中和DSFI-list列表中的非频繁项,同时删除窗口衰减支持数小的事务项,最后采用自顶向下和自底向上的双向搜索策略来挖掘数据流的最大频繁项集。并通过用例分析对DSM-MFI算法和DSMMFI-DS算法进行存储结构的比较,用实验证明了该算法比DSM-MFI算法具有更好的执行效率。
其他文献
随着数据的爆炸性增长和数据重要性的不断增加,传统的存储体系结构已经不能满足数据存储的需求。SAN存储体系已经被广泛的研究和使用。iSCSI协议融合了SCSI协议和TCP/IP协议,
数据融合方法对于提升入侵检测模型的性能具有至关重要的作用,是当前网络安全领域中研究的热点之一。本文对数据融合方法进行了研究,提出了一种基于粗糙集和支持向量机的理论为
现行的K_匿名算法在设计属性值的泛化层次结构时,为图简便,往往忽略属性值的分布特征,而仅以机械的方式来确定其泛化域。当数据集内某些属性的值在一个较小区间里以高频度出现时
目标检测是模式识别和计算机视觉领域的重要研究课题之一,在军事侦察、智能交通、视频监控、人机交互等领域具有广阔的应用价值。在视频目标检测过程中,往往会出现外界环境干
弥散张量成像技术是核磁共振成像的模型之一,通过测量生物组织内水分子的弥散情况来进行成像。弥散张量成像技术对研究大脑的认知功能和神经结构的正常工作重要的意义。在大脑
人工视觉假体是目前解决视网膜病变所导致失明的最有效办法。国内外研究者在有限的植入电极所形成的低分辨率视觉下,不断努力和尝试,企图找到一些方法来帮助假体植入者,从最初的
随着网络的普及,人们每天都要对Web上海量的数据进行处理,而Web上的数据大多以文本形式存在。如何对这些文本进行分类,首先是通过训练集获取的类别特征构建文本分类器,将待分类的
随着移动互联网的兴起,移动平台Widget应用开发已经成为炙手可热的话题。但由于当前主流的移动开发平台之间互不兼容,造成移动Widget应用开发各种资源的浪费。本文以课题项目为
智能视频监控系统是利用计算机视觉技术对观测到的视频信息进行处理、分析和理解,从而实现对运动目标的监测。随着计算机和图像处理技术的不断发展,智能视频监控系统的研究和
现代软件规模越来越大、复杂程度越来越高,通常都是由许多开发者合作开发完成。由于软件开发工作的特殊性,如何对软件开发者进行准确的评价一直是个难题。目前对各开发者的评价