基于AFOPT-tree的最大频繁项集挖掘

来源 :安徽大学 | 被引量 : 0次 | 上传用户:guoxxjie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息产业尤其是互联网行业的高速发展,使得人们获取和存储数据的能力不断提高,数据库中存储的数据以指数形式不断增长。但在这些海量数据中,真正对于人们有决策价值的知识却相对匮乏,关联规则挖掘正是用于揭示数据集中不同的项或者属性之间的关联性,找出有价值的多个属性之间关联关系。而最大频繁项集中隐含了所有频繁项集,占用的内存空间较小,并且在挖掘的过程中只用挖掘最大频繁项集,可以有效的减少递归次数和内存应用,且有些数据挖掘应用中也只需要获得最大频繁项集,因而最大频繁项集挖掘的研究有着重要的意义。在如今面对大规模稠密数据项集时,超集检测逐渐成为最大频繁项集挖掘算法运行中耗时最多的步骤,是算法效率提升的一个瓶颈;并且现有的最大频繁项集挖掘算法大都采用基于FP-tree的模式对于空间搜索树进行遍历,在自顶向下的遍历策略中效率并不高。因此本文在查阅了大量国内外相关论文和文献的基础上,针对这两方面的问题,本文改进了基于投影的超集检测算法,提出了基于AFOPT-tree的最大频繁项集算法A-MFI,并在此基础上实现了A-MFI算法在Hadoop平台上的分布式实现。论文的主要工作如下:(1)首先对于数据挖掘尤其是关联规则挖掘和最大频繁项集挖掘的理论、特点及其主流算法进行了介绍,并对云计算和Hadoop云平台的相关知识进行了介绍。(2)针对现有最大频繁项集挖掘算法采用的FP-tree在自顶向下遍历策略中效率不高的问题,本文采用AFOPT-tree模型来构建空间搜索树;针对提升超集检测方法效率的问题,本文提出优化的基于投影的超集检测方法,采用AFOPT-tree模型对传统的MFI-tree进行改造,将基于投影超集检测方法对于MFI-tree自底向上的遍历模式改变为自顶向下的遍历模式,并在MFI-tree中加入一条相同数据项集之间的链表域,提升前瞻剪枝的效率。在这些改进的基础上,提出了基于AFOPT-tree的最大频繁项集挖掘算法A-MFI,并采用不同的数据项集对算法进行实验,验证了算法对比同类算法在超集检测优化和总体运行效率上的优越性。(3)针对面对如今大规模数据集,单机最大频繁项集挖掘算法的运行效率提升有限的问题,本文在对云计算和Hadoop平台的相关知识深入学习的基础上,对A-MFI算法进行了分布式改造,实现了对最大频繁项集挖掘的分布式挖掘。经实验验证,分布式的最大频繁项集挖掘方法相比单机在面对大规模稠密数据项集时运行效率有了明显的提升。(4)最后,对全文内容进行总结,并指出文中现有研究内容的不足,为以后的研究指明方向。
其他文献
核方法即为基于核的机器学习方法具有两个显著的特点:(1)在线性与非线性之间建立了一座桥梁,从而可以把求解线性问题的方法用于求解非线性问题;(2)核函数的引入巧妙地避免了维
千百年持续不断艺术创作保存下来的敦煌壁画,对于研究绘画发展具有重要意义。本文将非真实感渲染技术和敦煌艺术相结合,借鉴敦煌研究院整理的资料,生成具有敦煌风格的艺术作品。
随着社会老龄化的加剧,环境问题的日益突出,人们对自身健康信息越来越重视,对自身生物信号的智能化采集和监控的需求,已经出现爆发式的增长。但是,传统的生物电信号采集设备(心电图
随着电子商务技术的蓬勃发展,Internet逐渐成为服装业一个引人注目的销售渠道。但是,服装的自身特点决定了其无法用规格、文字以及照片等方式准确地将特征信息描述清楚,导致了消
随着信息化技术的发展和Web2.0时代的到来,数据资源的类型和规模不断扩大,社会发展已经进入到大数据时代。大数据时代的来临,给索引技术和数据库系统的发展带来了巨大的机遇和挑
随着数据库技术越来越广泛的应用于生活、生产和社会各个方面,对数据库管理数据的能力和效率方面的要求愈来愈高。在已有的软件和硬件资源的基础上,充分地发挥数据库的潜能,优化
空间遥感图像的形成经历了多个环节,这些环节中不可避免的出现了图像的退化,图像质量降低,为了获得高质量的空间图像,需要对获得的遥感图像进行消噪和去模糊处理,一般进行图像增强和图像复原操作。目前国内外各个机构对获得高质量的遥感图像做了研究,因此而衍生出了众多的图像恢复方法,例如采用图像点扩散函数的图像复原,采用图像调制传递函数的图像复原。本文深入研究了利用刃边法求取点扩散函数的过程,对影响图像复原效果
随着全国铁路的提速和高速铁路的建设,我国铁路交通发展进入一个新阶段,也预示着我国交通事业的规划向着更高效的方向发展,这使得人们对于铁路建设的安全性提出了更高的要求。智
在国民经济与国防现代化建设中,计算机软件在日常生活中的应用越来越普及,软件可靠性问题日趋受到人们的重视,尤其对于一些安全关键领域,如载人航天、高速轨道交通等。应用于
二值图像连通域标记是指将二值图像中通过给定规则相互连接的像素附上同样的标记,而相互不连接的像素附上不同标记的处理过程。二值图像连通域标记在机器人视觉,人脸识别等相关