频繁闭项集挖掘算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户：lunxyxd

【摘要】

：

在大数据的时代背景下,人们被淹没在信息之中,却得不到更多有用的知识。数据挖掘技术由此应运而生。近年来,关联规则挖掘研究已经成为数据挖掘中的一个热门问题,并被广泛应用

【作者】

：

沈盛霞

【机构】

：

安徽大学

【出处】

：

安徽大学

【发表日期】

：

2016年期

【关键词】

：

关联规则频繁项集频繁闭项集深度优先策略不确定性数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在大数据的时代背景下,人们被淹没在信息之中,却得不到更多有用的知识。数据挖掘技术由此应运而生。近年来,关联规则挖掘研究已经成为数据挖掘中的一个热门问题,并被广泛应用于金融、市场营销、事务分析等领域。传统的关联规则挖掘算法主要任务是挖掘频繁项集,然而挖掘所有频繁项集会产生太多的冗余。由于频繁闭项集的数量级远小于所有频繁项集的数量,而且频繁闭项集不会丢失项集的信息,所以不用挖掘所有的频繁项集,用挖掘频繁闭项集来代替是一个很好的选择。近年来,不确定性数据得到了越来越广泛的重视。不确定性数据广泛出现在经济、金融、电信、物流等领域中,不确定数据挖掘已经成为数据挖掘领域中一个非常重要的研究课题,其中频繁项集挖掘是重点研究的问题之一。因此,本文主要研究了在确定性数据和不确定性数据上来挖掘频繁闭项集的问题。本文主要工作包括：(1)详细说明了在确定性数据和不确定性数据上挖掘频繁闭项集的有关概念和相关理论；(2)总结了之前已有的两类主流频繁项集挖掘框架：基于Apriori的宽度优先挖掘和基于FP树的深度优先挖掘；(3)详细介绍了确定性数据上的频繁闭项集挖掘算法,总结了相关算法的优缺点,并通过实验对比证明了各算法的性能；(4)针对最新的不确定数据上的频繁闭项集挖掘算法A-PFCIM算法进行了深入分析；(5)提出了一种新的频繁闭项集挖掘算法NA-PFCIM。该算法将项集挖掘过程中项集的出现次数看作一个概率分布函数,考虑到基于正态分布模型的方法提取的频繁项集精确度较高,而且支持大型数据库,所以我们采用了正态分布模型提取频繁项集。同时,为了减少搜索空间以及避免冗余计算,利用基于深度优先搜索的策略来获得所有的概率频繁闭项集。算法还设计了两个剪枝策略：超集修剪和子集修剪。最后,在常用的数据集上,将提出的NA-PFCIM算法和基于泊松分布的A-PFCIM算法进行比较。实验结果表明,NA-PFCIM算法能够减少所要扩展的项集,同时减少项集频繁概率的计算,其性能优于对比算法。

其他文献

高速网络入侵检测若干关键技术的研究

入侵检测技术是继数据加密、VPN、防火墙等传统网络安全保护手段之后的新一代安全保障技术。目前,尽管入侵检测技术发展速度很快,但是随着大量高速网络技术的出现,入侵检测系

学位

高速网络协议分析负载均衡粗糙集小生境GA

涡轮叶片冷却流动与换热模型信息系统研究

涡轮冷却叶片设计是未来发动机设计的重要环节,涉及大量复杂的数据模型。由于缺乏有效的管理与运用手段,依赖传统的设计建模方法,数据可重用性和一致性差,系统建模效率低且严

学位

C/S涡轮叶片冷却模型可扩展性信息系统

基于网络透视理论的网络链路性能测量研究

随着互联网的飞速发展，网络测量的重要性日益突出。网络测量可以精确地捕捉互联网行为的测量数据，包括延迟、丢包率、带宽、吞吐量、瓶颈、服务器和网络设备的响应时间等。网络

学位

基于人工免疫原理的入侵检测算法研究

基于人工免疫的入侵检测系统中，不管是基于什么免疫原理的入侵检测系统，检测器都是其核心部件，检测器的生成速度和在非我空间的分布状况直接影响着系统的性能。目前基于人工免疫

学位

入侵检测人工免疫否定选择算法粒子群优化算法KDD1999数据集

无线Mesh网络MAC协议研究

无线Mesh网络(WMN)是一种新型的宽带无线网络系统，也是一种大容量、高速率的分布式网络。与传统网络不同的是，WMN具有可靠性、自组织性和自愈性等特点。这种无线网状网不仅可以

学位

无线Mesh网络跨层设计协作通信多信道MAC协议

网络环境下En-route缓存算法的性能改进

Internet技术和Web服务的迅猛发展，导致网络拥塞和服务器负载过大成为用户面临的两大问题。在网络中设置缓存，以空间换取时间己成为降低用户感知延时的主流方法之一。En-route

学位

en-route缓存缓存替换算法一致性策略访问特性

规则化描述方法及其验证技术的研究与应用

随着信息处理、计算机、机器人等技术的发展,出现了一大批复杂的人造动态系统,这类系统不同于连续变量系统,它自身带有异步与并发特性,称之为离散事件动态系统。这类系统的特

学位

形式化方法离散事件动态系统规则化描述方法皮带传输控制系统规则的逻辑验证

纯XML数据库的索引技术研究

随着Internet的迅猛发展，XML已成为数据表达和数据交换的主要标准。XML数据库因此成为研究的热点。XML数据查询是XML数据库的基本功能之一，而对XML文档建立索引是提高查询效率

学位

数据库XML文档索引结构Dewey编码查询算法小枝路径

基于图像的人体姿势估计和手势识别研究

人体姿态估计在各个领域中都有很大的作用,相比较手势识别,更方便的是个人的一些工作。本文主要的研究就在单幅静态图像上的人体姿态估计以及在深度图像上进行的手势识别,论

学位

姿态估计形状上下文深度图像图结构模型双边滤波随机森林

无线传感器网络门限秘密共享研究

无线传感器网络需要保证复杂环境下数据处理的大规模性以及实时性，安全对于很多传感器网络的应用是至关重要的，比如军事目标追踪，安全监测等等，安全问题已成为阻碍WSN迈向实际应

学位

无线传感器网络秘密共享拉格朗日插值

频繁闭项集挖掘算法研究

其他学术论文