基于Hadoop的MapReduce的性能分析与优化

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:happy264
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的快速发展,各类信息数据的增长速度越来越快,针对海量数据的处理需求,云计算逐渐成为业界的主流计算模式。MapReduce是云计算思想的编程模型,以其简单实用的接口使得数据的并行处理变得简单易行,为海量数据的计算处理提供了软件支持。迭代计算是MapReduce模型需要优化的性能之一,本文首先分析了目前主流迭代框架存在的不足,特别是在抽象度不够高,不能够并行处理任务数据与静态数据和动态数据不能完全分离等方面。针对上述问题对MapReduce框架进行了改进,通过分割Map任务和Reduce任务以及对迭代终止条件进行并行检测,提出了相应的并行处理策略,解决了之前串行处理导致计算时间过长的问题,然后通过对Map端存储策略的改进,将静态数据存储到Map端,直接在Map端完成对静态数据与动态数据的计算过程,使得一次迭代过程中的MapReduce数得到减少。针对基于MapReduce的SVM分类算法对数据集的训练是将各子节点训练后得到的支持向量进行合并,得到的分类器分类效率和准确率并不理想。为此,提出了一种改进的训练算法PISVMAM,该算法在各节点上运用遗传算法来寻找子数据集的最优核函数及参数,用得到的参数组合对子数据集进行训练得到支持向量,合并每个节点训练后的支持向量为全局支持向量,然后在各个节点上将子集与全局支持向量合并并作为新的训练数据集,重复这四个步骤,直到全局支持向量不再变化时,则收敛到最优分类模型。通过程序的编写及实验平台的搭建,优化后的迭代框架在处理迭代计算的效率有了明显的提升。PISVMAM算法的分类正确率也比传统的分类算法有了明显的提高。
其他文献
超大广角镜头的突出优点在于其超大的视场角,在全景拍摄、视频群组会议、视频监控、智能交通系统、机器人导航等领域得到广泛的应用。但是超大广角所带来的弊端就是拍摄的图
随着计算机技术和网络通信技术的高速发展,以并发性、分布性、实时性、异构性和互操作性等主要特征的并发分布式系统已成为计算机技术的主流方向。并发现象以其固有的复杂性,
英特网上的信息与日剧增,蕴藏着巨大的信息量。对产品的各种评价出现在各大论坛、电子公告板以及门户网站上。同时,用户也更渴望从海量数据中得到某类产品的评价信息。然而,
粗糙集算法是近年来在数据挖掘领域出现的新兴算法,它在处理数据模糊性方面有其独特的优势,但是它计算过程中核心的过程“约简”的计算过于复杂,这严重影响了它的使用和推广
人脸识别是一个典型的图像模式分析、理解与分类计算问题,它涉及到模式识别、图像处理、计算机视觉、统计学习和认知科学等多个学科。人脸识别问题的深入研究和最终解决,可以
图像在形成、传输以及记录过程中,不可避免地会受到噪声的干扰。噪声的引入,不仅降低了图像的质量,而且严重影响图像的后续处理工作。因此,图像去噪成为图像处理中一个基础而
随着无线网络与移动终端设备的不断成熟,移动业务逐步向通信,商务与娱乐等应用相结合的方向转移。特别自2004年以来,3G进入高速发展阶段,市场出现大量多媒体通信服务的需求。
聚类算法是数据挖掘中的重要内容,能够从数据中提取出隐藏的有用信息和知识来为人们服务,在工业、商业以及科研领域都得到了广泛应用。随着当今社会数据量急剧增加,单机聚类
本课题是针对电脑横机花型准备系统中模拟与仿真功能进行的研究。国外的电脑横机花型准备系统一般都比较完备,特别是在织物组织模拟,衣片、试穿模拟方面已经做的比较出色,但是国
近年来,Web服务逐渐成为实现系统应用跨平台的主要工具,但是随着人们对Web服务技术的深入了解,单个Web服务因其服务粒度小进而导致应用范围受限这个缺陷逐渐暴露出来,为了解