基于块聚集的MapReduce性能研究与优化

来源 :北京交通大学 | 被引量 : 16次 | 上传用户:keyina
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
摘要:随着计算机和互联网技术的快速发展,使得云计算技术应运而生。由于海量数据已经不能够存储在单一的计算机上,传统的串行处理需要大量的时间花销,因此如何对海量数据进行高效处理成为一个亟需解决的问题。MapReduce作为一个支持分布式并行处理海量数据的计算模型,广泛适用于机器学习、数据挖掘和科学计算等数据密集型应用领域。:Hadoop是MapReduce计算模型的一个开源实现,已经被Yahoo,Amazon和Facebook等企业用于在搜索日志和访问日志这类大数据集上进行各项数据挖掘。虽然Hadoop的使用价值已经得到了大家的认可,但是还存在很多问题,其性能有待进一步的改善。Hadoop的核心组件包括Hadoop文件系统(HDFS)和MapReduce计算框架,它们是Google文件系统(GFS)和MapReduce的开源实现版本。在对HDFS和MapReduce进行了深入的研究和实践的基础上,本文阐述了Hadoop共享集群不能保证不同数据量作业都高效运行的问题。这主要体现于共享集群在保证相对较小数据量作业的并行性能的同时,在该集群上运行大数据量作业会产生非常多的map任务,给集群的控制节点带来非常大的压力,并且在初始化这些map任务时会耗费非常多的资源。本文从文件系统(HDFS)和分布式并行计算框架(MapReduce)相结合的角度出发,提出了基于块聚集的自适应分片算法,使集群的任务分配机制按照作业的实际数据量、数据文件个数和作业可用计算资源等因素自行确定分片的大小,并使数据以分片为单位在节点上聚集性存储。该算法保证了不同数据量作业的并行度,并适当降低了大数据量作业的map任务个数,减少了作业运行过程中初始化任务的开销和控制节点的压力,从而有效地提高了集群的运行性能。当前Hadoop在实现上假定集群中的所有节点的计算能力是相同的,并假定大部分map任务的数据都存储在本地磁盘上,在实际执行map任务的时候数据的本地性并没有得到很好的体现。这使得异构Hadoop集群的运行性能极端低下。本文也针对这一问题展开讨论,并提出根据集群节点的实际计算能力和输入数据的实际大小计算作业的分片大小,同时将分片内的数据按照节点计算能力进行集聚性存储,提高异构集群的数据本地性。实验证明优化后的Hadoop在异构集群中能够更加高效的运行计算任务。
其他文献
二值图像连通域标记是指将二值图像中通过给定规则相互连接的像素附上同样的标记,而相互不连接的像素附上不同标记的处理过程。二值图像连通域标记在机器人视觉,人脸识别等相关
随着信息产业尤其是互联网行业的高速发展,使得人们获取和存储数据的能力不断提高,数据库中存储的数据以指数形式不断增长。但在这些海量数据中,真正对于人们有决策价值的知
随着互联网和多媒体信息技术的快速发展,图像信息的数量急剧增加,使得人们获取和检索图像必须面对海量图像数据库。如何从海量的图像库中快速、有.效地检索到所需的资源已经
随着互联网技术的发展越来越成熟,远程教育也越来越受到人们的关注,它给那些希望继续深造但又受到时间、空间限制的人提供了一个很好的学习平台。远程教育是一个全新的教学方
随着经济和物质生活水平的不断提升,中国人口城市化进入高速发展阶段,人口老龄化问题也日渐突出。最新人口普查显示,中国老年人口已接近3亿,相关的医疗监护随之成为社会关注的热
数据挖掘一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性信息的过程。数据挖掘又译为资料探勘、数据采矿,是数据库知识发现中的一个步骤。数据挖掘与统计学、机器
伴随着世界互联网的发展,如合作网、社交网络以及学术引用网络,可以看到复杂网络在我们的日常生活中无处不在。随着人们对复杂网络的进一步研究,逐渐发现复杂网络具有许多重要的
随着信息技术和人工智能的快速发展,计算机逐渐具备模拟人的思维和智慧的能力,计算机视觉成为了一个热门的研究课题。近年来,人脸检测、人脸识别、特征提取、人脸特征点跟踪
关联规则挖掘主要是研究数据属性之间的关联关系,挖掘出的规则在企业决策、个性化推荐、产品设计上都有很高的价值。目前关联规则挖掘领域使用最多的是Apriori算法和遗传算法
感应加热作为一种工业加热方法,具有能流密度大、加热速度快、热效率高、节约能源、不污染环境等一系列优点,被广泛应用于轧辊表面淬火、棒料透热、板坯回火等工业生产领域。中