基于Hadoop的Apriori算法改进与移植的研究

被引量 : 0次 | 上传用户:HBFQYD2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的随着计算机技术和互联网的飞速发展,Web2.0的成熟与广泛应用,数据呈现爆炸式增长,传统的数据挖掘算法在处理海量数据时效率低下,云计算的出现为其改进带来了新的方式。云计算通过集群威力,实现了对海量数据的可靠存储和高速计算。Hadoop作为一款比较成熟的开源云计算框架,以其高效、可扩展、低成本等优点在数据挖掘的相关领域得到了广泛应用。基于此,本文将Hadoop与典型的数据挖掘系统进行整合,并选择了新的数据挖掘系统的算法模块部分中应用较为广泛的Apriori算法进行改进,以提高其在处理海量数据时的效率。方法本文采用的研究方法包括:文献研究法,结构化方法,实例分析法和对比分析法。文献研究法可以了解相关研究的现状,还为本文的研究提供理论参考;结构化方法是系统分析常用的方法,对基于Hadoop的云数据挖掘系统架构的分析具有指导意义;通过实例分析法阐述了传统Apriori算法的执行流程并论证了改进算法的可行性;通过对比分析法,分析了改进算法的优势。结果(1)结合典型的数据挖掘系统架构,将其与Hadoop进行整合,提出了基于Hadoop的数据挖掘系统架构,并对各个功能模块进行了简要阐述。(2)在对Apriori算法进行了详细阐述的基础上,针对其在处理海量数据时存在的瓶颈,利用MapReduce编程模式,本文提出了基于数据库划分的并行化改进的思想。通过对改进算法的详细阐述和设计,结合实例论证了改进算法的可行性,并对改进算法进行了分析。(3)通过实例分析,得到改进算法具有更高的效率,降低了时间复杂度和空间复杂度。结论(1)云计算给数据挖掘算法的改进带来了新的方式,云数据挖掘将成为未来的研究趋势。(2)本文的研究具有一定的意义,它为数据挖掘其它算法的改进提供了参考。越来越多的算法将被并行化移植到Hadoop云数据挖掘平台。
其他文献
东秋里塔格构造带是塔里木盆地库车坳陷的前缘构造带,整体表现为受新近系吉迪克组膏盐岩滑脱层控制的分层变形构造特征。盐上构造层主要发育断层相关褶皱,盐岩层以塑性流动变
近年来,伴随着数字信号处理(DSP)技术的不断革新与进步,逆变电源作为电力电子的一个重要组成部分,无论是在分布式发电系统(包含有可再生的新能源技术应用),还是不间断电源应用中,都发
目的综述番茄红素防癌抗癌作用及其机制,为前列腺癌、消化道癌、乳腺癌等癌症的防治提供理论依据。资料来源应用计算机检索M edline1995-01/2005-03相关文章,检索词为“Lycop
目的 探讨在采用俯卧位经皮肾镜碎石(PCNL)术治疗肾结石患者的碎石过程中,术中移除腰垫对手术效果的影响。方法 选择行PCNL术的肾结石患者830例,按术中进行碎石操作时是否保
粤闽赣交界区域的革命老区,有着丰富的以中央苏区为特色的红色资源。应该开发利用其资源优势,实现中央苏区红色资源的社会教育价值、经济发展价值以及区域城市品牌价值,推动区域
<正> 2002年1月1日起施行的《企业会计准则——固定资产》为固定资产折旧作出了明确定义:"折旧,指在固定资产的使用寿命内,按照确定的方法对应计折旧额进行的系统分摊。其中,
智能建筑的兴起始于20世纪80年代初的美国,我国则是在20世纪80年代末开始智能建筑的建设。其综合性强,系统结构和功能复杂,其科技内涵涉及的领域包括计算机学与电子学、控制理论
当今社会经济正处于蓬勃发展的黄金时期,国民生产总值正在以飞快的势头迅速增长着,然而就在这种迅速增长的势头下各类安全事故也随着经济的发展不断的往上增加。在当今经济一体
电子网络技术的迅猛发展和广泛普及,给人们的日常生活带来了日新月异的变化。“人肉搜索”技术的出现,更是给人们寻找个人信息提供了极大地便利。作为一种“中立性”的技术,“人
本文认为,《狂人日记》独特的艺术构思在于:作者舍弃对主人公个人命运的关怀,倾全力于刻画其疯狂心理,充分利用疯狂语言的跳跃性、神秘性、刺激性、多义性,以一系列的疯狂思