基于Hadoop平台并行关联规则挖掘算法研究

来源 :西安科技大学 | 被引量 : 0次 | 上传用户:lemayn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据规模的爆炸性增长给传统计算机技术和串行算法带来挑战,同时也带来了新的发展机遇。“大数据”顺应而生。大数据使串行化关联规则算法需要重写,串行算法的并行化迫在眉睫,并行计算和大数据平台的应用是好的解决方案。关联规则用于发现信息与信息之间存在的关系,是重要的数据挖掘任务。关联规则传统算法Apriori算法和FP-Growth算法处理大数据时,单机处理发生内存溢出情况。使用Hadoop进行关联规则研究,降低编程难度,数据分片,因此Hadoop上关联规则并行算法研究是一个重要课题。针对此问题,本文进行了如下研究:(l)研究了 H-Apriori(Apriori algorithm based on Hadoop)算法并改进其算法。大数据环境下,Apriori串行算法难以处理海量数据,H-Apriori算法的中间过程产生大量值为1的键/值对,并且读取全部的事务,以致产生了大量的候选项并消耗了运算时间。本文采用删除非频繁项达到减少冗余数据的目的。重构数据库,优化读取事务步骤,提出了基于Hadoop的改进算法。有效约简了事务数据库,使用哈希树计数减少计数时间,提高了算法效率。(2)提出了一种基于Hadoop平台的负载均衡数据分割FP-Growth的改进算法。大数据环境下,FP-Growth串行算法难以处理海量数据,PFP(ParallelFP-Growth)难以处理一定量的数据。改进算法使用负载量估计、改进的均衡化分组方法进行均衡化分组,克服了 PFP数据量增大不能处理、负载不均衡的缺点。改进算法可以有效平衡集群各节点的负载,缩短整个集群的算法运行时间。搭建大数据Hadoop平台框架后,进行了对比实验。通过权威数据验证算法实效性。实验表明,改进算法能够更好的适应大数据,并且效率较高。
其他文献
随着互联网技术和数字技术的发展,多媒体信息,比如图像、声音、视频,甚至是文本信息,已经成为人们获取信息的主要来源。人们可以通过互联网下载、传播网上的数字多媒体产品,
随着计算机网络技术的快速发展,网络犯罪日益增多,犯罪手段也日益多元化。这时计算机离线取证存在的许多不足就逐渐显露出来,比如:很多易失数据如内存映射文件等将会丢失,内核级
图像分割是图像分析,识别和图像理解的基础,是图像处理到图像分析的一个极其关键的步骤之一。正是由于图像分割的这种重要性,国内外一些学者对其进行了大量研究,同时也提出了
在大数据时代,如何利用好数据潜在信息价值,成为商业巨头能否实现经济飞速发展的重要因素。准确的目标预测,对于国民经济的发展具有不可估量的意义。在商业、经济和其他领域
随着国民经济的不断发展,环境保护和资源的有效利用也越来越受到人们的重视。煤炭循环经济是指煤炭在开采、运输和加工等过程中进行的减量化、再利用、资源化活动的总称。煤
变压式皮肤听声器的原理是把外界的声音信号转换为电压信号,通过刺激皮肤来达到“听”声的效果。目前变压式皮肤听声器已研制成功,在不需要手术和不产生任何副作用的情况下,能够
由虚拟现实延伸出来的增强现实(augmented reality, AR)技术已逐渐发展成为一门独立系统的学科。三维注册是实现AR的关键,它决定了虚拟目标如何准确地与真实场景进行结合。传
人脸识别是生物特征识别技术的一个重要分支,被广泛应用于公共安全、身份认证、机器视觉等领域。人脸图像是典型的非线性高维数据,容易受到姿态、光照、年龄等因素的影响而变化
基于RGB通道的单视角动作识别容易受到诸多因素的干扰。例如:光照变化、视角变化和个体动作差异等因素。这些因素限制了其进一步的发展和应用。为了减少这些干扰因素的影响,
随着计算机信息技术和互联网的高速发展和普及,全球对自主学习和终身学习的需求也越来越高。人工智能和网络等技术的发展以及在教育领域的运用,使教育观念、教学方法和手段等