最大频繁项集挖掘算法的研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:hobbysh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术自诞生以来就致力于发现隐藏在数据中有价值的信息。随着大数据时代的到来,数据挖掘可以将丰富的数据变为一种宝贵的资源,其地位变得更是不可小觑。发现关联规则是数据挖掘工作的重中之重,而挖掘频繁项集又是寻找关联规则的主要步骤。但是频繁项集不仅数量庞大,还存在信息冗余的问题,因此挖掘最大频繁项集的任务应运而生。在压缩频繁项集的同时,最大频繁项集也缓解了数据存储的压力。另外,在Web挖掘、DNA分析等一些应用领域内,挖掘最大频繁项集的重要性也是显而易见的。因此如何提高最大频繁项集的挖掘效率成为了一个重要的研究方向。本文阐述了挖掘最大频繁项集的研究背景及意义。通过国内外研究现状发现,挖掘最大频繁项集的算法通常是在Apriori和FP-Tree这两种思想的基础上进行改进。但是,基于Apriori改进的算法在自底向上逐渐产生频繁项集的过程中会产生多余的候选项集,为了计算项集的支持度,多次扫描数据库是对时间和资源的一种浪费。另外,随着挖掘宽度和深度的增加,FP-Tree的构建将会消耗巨大的时空资源。基于上述问题,对最大频繁项集挖掘过程中的相关问题进行了深入研究。除了基础概念和理论,本文还综述了挖掘最大频繁项集的过程中所用到的搜索策略和剪枝策略,同时分析了最大频繁项集挖掘的四种经典算法,为后续最大频繁项集的挖掘算法奠定了理论基础。本文提出了一种基于回溯的最大频繁项集挖掘算法GBMFI(Go-Back Maximal Frequent Itemsets)。它以枚举树为搜索空间,通过深度优先搜索克服了自底向上和自顶向下搜索策略的不足,采用垂直表示数据库的方法降低了项集支持度计算的复杂性,并融入非频繁子集、频繁超集以及利用父子关系的剪枝策略,针对不同情况,使用恰当的剪枝方法,提高了算法效率。随后,在四种标准数据集下进行了实验。与DepthProject算法对比可得,在相同环境下,GBMFI算法运行速度较快,并对不同数据集下的最大频繁项集的结果数与分布情况进行了研究。另外,本文还提出了一种分布式并行挖掘最大频繁项集的算法AMI,虽然实验效果欠佳,但为下一步工作指明了方向。
其他文献
无线设备及业务迅猛增长和频谱资源日趋耗竭的矛盾越来越突出,如何让有限的频谱继续满足人们日益增长的带宽需求成了无线通信领域急需解决的问题。认知无线电技术通过感知并
EOC是以太网信号在同轴电缆上的一种传输技术,由于其无需重新布线,高速的以太网传输能力,较强的抗干扰能力,以及能实现基于IP的各种业务,如高速数据业务,使得其在HFC各方案中
无线传感器网络是一种新型的无基础设施的无线网络,因其广阔的应用前景,引起了国内外学术界和工业界的高度重视,成为目前研究的热点之一。无线传感器网络路由协议是无线传感
入侵检测系统(IDS)已成为网络安全防御体系中的重要组成部分。然而,目前大规模网IDS会实时产生大量琐碎的警报数据,其中普遍存在着冗余的、不正确的警报。这些数量大、质量低
特征选择作为维数约减领域的一个重要分支,对增加机器学习结果的精确度和提高计算效率有着显著的作用。虽然特征选择算法已在监督条件下被广泛研究,然而在非监督条件下,由于
文本挖掘是指从文本数据中抽取隐含的、未知的、有价值的知识的过程。文本趋势挖掘是文本挖掘的一个重要分支,旨在发现文本信息中隐含的趋势规律。科技文献趋势挖掘对研究人员
随着信息技术的快速发展,世界经济全球化的浪潮一波波的汲涌而来,这对企业的生存环境产生深刻的影响,对企业的竞争力提出了新的挑战。企业面对全球化的市场竞争环境时,需要面
在数据库集成领域内,建立异构数据源之间的语义互操作越来越成为一个核心问题,而语义互操作问题最后归结为解决数据冲突的问题,这是数据集成最主要的任务。数据冲突包括模式
随着互联网的不断发展和普及,信息技术的应用已经扩展到了社会经济、政治、军事、个人生活等各个领域。无论是在计算机上存储、处理和应用,还是在通信网络上传输,信息都可能
有关教师教学评价一直是学校的重要工作,是学校进行教师学期和年度考核的重要组成部分。教学评价(包括教学过程和教学结果的评价)的研究,是教育评价的重点。   本文主要研究