基于异构Hadoop平台的并行聚类算法研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:fa239831983fa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在数据挖掘领域,聚类分析是一个重要且备受关注的研究方法,其中包含的基于密度的聚类算法由于可以有效的排除噪声数据,发现任意形状的簇而被广泛的研究。当今处于信息时代,从网络中可以获取各种各样的数据,从而导致存储在数据库中的数据量急剧增加,若再想从这些海量数据中获得有价值的信息和知识是非常困难的,这促使人们对大规模数据进行并行化研究。作为分布式计算、网格计算和并行计算的发展,云计算成为了当前研究的热点。Hadoop平台是云计算的开源实现,主要是针对海量数据的并行研究,运行在由廉价的计算机构成的集群上,有效的节约计算成本,提高数据处理能力。本文主要研究如何在异构Hadoop平台上实现海量数据的聚类问题。首先针对异构Hadoop环境下仍采用均等的数据分配方法将严重降低MapReduce的性能,提出了比例数据分配策略。主要思想是通过计算异构集群中各节点的计算比率,将已经分割好的数据块重新进行组合,形成数个按比例划分的数据块,每个节点根据自身性能来选择所分配和存储的数据块,从而使异构Hadoop集群中各节点处理数据的时间大致相同,降低节点之间数据的移动量。其次考虑到MapReduce默认的数据划分方法将割断数据本来之间的联系,提出了有交叉区域的数据划分方法。然后结合异构Hadoop平台,利用MapReduce化的编程思想,实现DBSCAN算法的并行化。最后,在搭建的异构Hadoop平台上分别对比例数据分配算法和DBSCAN算法的并行化进行测试。实验表明提出的比例数据方法可有效的提高MapReduce的性能,并使数据负载均衡;并行DBSCAN算法可以有效的提高聚类效率,具有很好的扩展性。
其他文献
随着计算机技术和通信技术的迅速发展,信息安全已经成为信息在传输、存储过程中非常重要的一环,密码学的发展为信息安全提供了强有力的保障,密码学是研究如何隐秘的传递信息的一
多边形填充算法是计算机图形学中的基本算法之一,也是图形加速器中光栅化阶段的主要算法之一。近些年来,随着嵌入式系统的广泛应用以及计算机图形学的发展,面对着嵌入式系统中高
无线传感器网络的快速发展,使得人们在随吋随地使用无线网络资源时,对自身位置信息的需求量不断提高。尤其在室内环境下,能够快速准确的获得移动终端的位置信息变得日益边切。与
复述(Paraphrase),国内的研究者有时也称之为“改写”,顾名思义就是对相同意思的不同表达。复述在自然语言中是一种非常普遍的现象,同时也在自然语言处理(NLP)的应用领域中扮
图形用户界面(GUIs)被广泛地运用于应用软件中,但其大量的使用也为软件的开发和测试带来了极大的挑战。现在的应用程序中,GUI的代码己达到整个软件的60%以上,图形用户界面的
Xen是一种被广泛应用的虚拟化软件平台,具备出色的隔离特性。隔离特性是通过引入VMM层实现的,Xen是VMM的一种具体的实现载体。由于本文的研究涉及到修改VMM的源代码,而Xen开
随着人类活动的日益加剧,软件在人类社会生活中所扮演的角色越来越重要。软件作为一种辅助人类完成一系列任务的工具,不仅应用范围越来越广,单体软件所能完成的功能也越来越
近30年来,随着人工智能领域中定理机器证明之可读证明方法的突破,基于可读证明技术的计算机辅助教学工具的研制已经成为CAI领域的主要研究方向。尤其是从上个世纪末开始,在国内
在当前的大多数实际应用中,数据往往是复杂的、高维的。这些复杂数据中通常蕴含多种合理的聚类模式,从多种不同的视角对这些数据进行聚类分析,能够更全面地理解数据。然而,传统的
云存储是一种基于互联网的全新存储模式,为人们提供高性价比和便捷的存储服务,但其安全性是被广泛关注和研究的热点。为了保证数据的可靠性和完整性,云存储中主要采取两种措施来