云计算中MapReduce性能优化及应用

被引量 : 0次 | 上传用户:m116730647
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自2007年以来,云计算已经逐渐成为国际IT界比较热门的概念,随着数据量的激增,如何快速高效地存储和计算海量数据成为目前科学界迫切需要解决的问题,而这类问题恰恰是云计算推出的动力之一,使得云计算的普及和应用已经成为业界不可回避和逆转的趋势。但是就云计算本身说,它只是一种思维模式,要想真正发挥它的优势,除了必要的硬件设施之外,更重要的是要有支撑和实现云计算思想的编程模型,而Google提出的MapReduce并行编程模型,以其简单有力的接口使得并行处理变得简单易行,为云计算中海量数据的计算提供了软件支持。本文详细分析了Google MapReduce及其底层文件存储系统GFS的概念、优点和实现机制。然后针对MapReduce的执行流程中对中间结果数据的处理机制不灵活,没有在第一时间减少中间结果的数量的缺点,在MapRedeuce的map函数中引入关联数组,可以使中间结果的合并操作在Map函数中自动进行,更有效的减少中间结果的数量,降低网络负担,从而提高系统的执行效率。本文在对MapReduce进行改进之后,设计和实现了基于MapRedeuce的文本分类器。在文本处理和数据挖掘领域,海量数据的分类问题是经常遇到的,然而传统的算法只能适应于小规模的数据,随着数据量的增大,算法的执行速度越来越慢,实时性越来越差,成为传统数据挖掘的瓶颈。这种新的分类器构建方法在集群中并行地实现分类器的构建,大大提高了效率,使得算法具有更好的实时性。为了验证MapReduce改进之后的性能,我们采用Mapreduce的开源实现Hadoop来进行实验,以运行时间作为衡量算法的标准,结果证明新的算法的效率比传统的算法要高的多。对于分类器的实现,我们也是在Hadoop平台下进行的,通过结果对比可知,基于MapReduce的分类器的具有更好的效率和可扩展性。
其他文献
<正>[引子]卡尔·荣格(Carl G.Jung,1875-1961),瑞士心理学家和精神分析医师,分析心理学的创立者。早年曾与弗洛伊德合作,后来由于两人观点不同而分裂。与弗洛伊德相比,荣格
目的探讨3.0 T高分辨率磁共振成像(HR MRI)评估大脑中动脉粥样硬化性狭窄的可信度。方法 2011年2月~2013年12月,对66例经DSA确诊的动脉粥样硬化性MCA M1段中重度狭窄(50%~99%
许多重要的治疗药物由于极小的水溶性限制了其在临床上的广泛应用,因此开发有效的传递系统是一项十分重要的工作。作为理想的药物传递系统,它必须能够将药物转运至体内特定部
电子商务作为一种全新的购买方式越来越多地走进了人们的生活,并产生了深远的影响。目前已有以中介机构为中心的电子商务平台,但这些中介平台主要存在如下三个问题:商品价格
多智能体系统凭借其良好的可扩展能力以及较强的容错能力在军事、民用等领域中得到了广泛的应用。系统在实际应用环境中往往会受到许多外界干扰因素的影响,比如智能体编队过
本文研究了壳聚糖电化学降解方法。考察了电流密度、温度、支持电解质浓度、pH、壳聚糖初始浓度以及极板间距等因素对降解效果的影响,优化了降解条件,并研究了在特定极板间距
动力电池是电动汽车的核心能源,磷酸铁锂电池以高安全性、动力、环保及长寿命而成为电动汽车动力电源的最佳选择。目前,对磷酸铁锂动力电池快速充电方法的研究是热点,但大部
<正>教育督导,在我国是一门既古老又年轻的科学。之所以说其古老,是由于在我国教育发展史上可以说自出现了教育也就同时出现了有记载的教育督导。而说其年轻,则因为这项工作
锌作为人体必需微量元素之一,对维持人体的正常生理功能具有重要的作用。本文在综述了锌的存在形态、锌的生物学功能、人体对锌的吸收、富锌食品的研究开发现状以及锌的分析
<正>【引子】弗洛伊德与荣格的关系,从惺惺相惜到分崩离析,这一段历史往事,不仅是两个人情感纠葛的过程,也是精神分析发展史的重要篇章。在这一过程中,充满了梦想与野心,忠诚