频繁闭项集挖掘算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:lunxyxd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据的时代背景下,人们被淹没在信息之中,却得不到更多有用的知识。数据挖掘技术由此应运而生。近年来,关联规则挖掘研究已经成为数据挖掘中的一个热门问题,并被广泛应用于金融、市场营销、事务分析等领域。传统的关联规则挖掘算法主要任务是挖掘频繁项集,然而挖掘所有频繁项集会产生太多的冗余。由于频繁闭项集的数量级远小于所有频繁项集的数量,而且频繁闭项集不会丢失项集的信息,所以不用挖掘所有的频繁项集,用挖掘频繁闭项集来代替是一个很好的选择。近年来,不确定性数据得到了越来越广泛的重视。不确定性数据广泛出现在经济、金融、电信、物流等领域中,不确定数据挖掘已经成为数据挖掘领域中一个非常重要的研究课题,其中频繁项集挖掘是重点研究的问题之一。因此,本文主要研究了在确定性数据和不确定性数据上来挖掘频繁闭项集的问题。本文主要工作包括:(1)详细说明了在确定性数据和不确定性数据上挖掘频繁闭项集的有关概念和相关理论;(2)总结了之前已有的两类主流频繁项集挖掘框架:基于Apriori的宽度优先挖掘和基于FP树的深度优先挖掘;(3)详细介绍了确定性数据上的频繁闭项集挖掘算法,总结了相关算法的优缺点,并通过实验对比证明了各算法的性能;(4)针对最新的不确定数据上的频繁闭项集挖掘算法A-PFCIM算法进行了深入分析;(5)提出了一种新的频繁闭项集挖掘算法NA-PFCIM。该算法将项集挖掘过程中项集的出现次数看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,所以我们采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。算法还设计了两个剪枝策略:超集修剪和子集修剪。最后,在常用的数据集上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。
其他文献
入侵检测技术是继数据加密、VPN、防火墙等传统网络安全保护手段之后的新一代安全保障技术。目前,尽管入侵检测技术发展速度很快,但是随着大量高速网络技术的出现,入侵检测系
涡轮冷却叶片设计是未来发动机设计的重要环节,涉及大量复杂的数据模型。由于缺乏有效的管理与运用手段,依赖传统的设计建模方法,数据可重用性和一致性差,系统建模效率低且严
随着互联网的飞速发展,网络测量的重要性日益突出。网络测量可以精确地捕捉互联网行为的测量数据,包括延迟、丢包率、带宽、吞吐量、瓶颈、服务器和网络设备的响应时间等。网络
学位
基于人工免疫的入侵检测系统中,不管是基于什么免疫原理的入侵检测系统,检测器都是其核心部件,检测器的生成速度和在非我空间的分布状况直接影响着系统的性能。目前基于人工免疫
无线Mesh网络(WMN)是一种新型的宽带无线网络系统,也是一种大容量、高速率的分布式网络。与传统网络不同的是,WMN具有可靠性、自组织性和自愈性等特点。这种无线网状网不仅可以
Internet技术和Web服务的迅猛发展,导致网络拥塞和服务器负载过大成为用户面临的两大问题。在网络中设置缓存,以空间换取时间己成为降低用户感知延时的主流方法之一。En-route
随着信息处理、计算机、机器人等技术的发展,出现了一大批复杂的人造动态系统,这类系统不同于连续变量系统,它自身带有异步与并发特性,称之为离散事件动态系统。这类系统的特
随着Internet的迅猛发展,XML已成为数据表达和数据交换的主要标准。XML数据库因此成为研究的热点。XML数据查询是XML数据库的基本功能之一,而对XML文档建立索引是提高查询效率
人体姿态估计在各个领域中都有很大的作用,相比较手势识别,更方便的是个人的一些工作。本文主要的研究就在单幅静态图像上的人体姿态估计以及在深度图像上进行的手势识别,论
无线传感器网络需要保证复杂环境下数据处理的大规模性以及实时性,安全对于很多传感器网络的应用是至关重要的,比如军事目标追踪,安全监测等等,安全问题已成为阻碍WSN迈向实际应