基于Hadoop的分布式计算系统的设计与实现

被引量 : 7次 | 上传用户:xindongmei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文对如何快速处理大量数据进行了研究,目的是构造一个规模小,成本低、性能高、风险小的分布式计算系统。将分布式计算与并行计算融合在一起,面向Windows开发,运行在小型、安全的局域网内,快速处理大量数据,解决传统计算框架不利于扩展,单台设备的计算瓶颈问题。本文在研究Hadoop框架的基础上提出了构建本系统的两大服务:分布式存储服务和分布式计算服务。系统采用三层架构设计来支撑整个集群的运行,Master负责全局信息掌控,Job负责调度任务,Task负责数据存储和计算。支持用户上传自定义格式的数据,不对原数据进行二次切分,可支持某些特定原生数据类型的计算。开放算法API,并对传统MapReduce框架作了扩展,计算时可携带其它数据源,方便数据交互处理。Reduce过程本地化,节省Map中间数据的网络传送时间。通过调度服务的合并接口汇总最终计算结果,将计算压力分散,充分利用集群内机器。采取添加动态链接库(DLL文件)的形式支持用户嵌入自定义算法,算法预先存储在Task节点,节省启动时间。默认集群内计算机具有一定的可靠性,简化容灾设计。在计算时对硬件资源的使用策略是抢占式的,单机在执行任务时根据配置文件预加载缓存,加快下一次计算。数据块数量决定线程数量,在线程安全范围内开启多线程,高并发,充分发挥CPU性能。最后针对本次实现的分布式计算系统,构造了两类测试算法:一类是与Hadoop集群作对比的WordCount算法,另一类是体现数据交互操作的图像比对算法。通过分析测试数据验证了本系统对小数据量计算请求能实时响应,并且作为一个在安全网络环境中运行的小集群,系统提供的计算能力能满足一般中小企业的需求,达到了预期设计目标
其他文献
目的研究分子生物学技术在快速检测社区获得性肺炎病原体中的作用以及社区获得性肺炎的病原学构成和临床特点,更好的为临床诊疗提供可靠的病原学依据。方法收集2015年3月至20
为探究上海黄浦江枯水期和丰水期浮游动物群落结构及其对环境的指示作用,于2013年11月和2014年7月分别对黄浦江11个断面(82个采样点)进行了调查分析。共鉴定出浮游动物109种,其
探讨医院药品效期的有效管理,提出合理化建议,使药品管理更加科学有效。本文从强化采购和药品验收的管理、合理管理药房药品的库存、合理管理有效期药品等几个方面,探讨增加
创新人才培养模式已经成为当前高校教育教学改革的重要内容,应用型人才培养体系是实现地方应用型高校特色化发展的核心要素。以皖西学院计算机科学与技术专业人才培养为例,分
电影疗法和阅读疗法均是艺术疗法的重要分支,具有相似的工作原理。电影疗法因其视听结合,直观形象,更受青少年的欢迎,在高校心理健康教育中具有广阔的运用空间。本文对电影疗
本文对出土与收藏的八件金蚕进行了分析和论证。考察其形制和功能,并对历代典籍中随葬金蚕的记载进行了梳理,辨析古籍记载和前人的不同说法,指出随葬金蚕的目的。 This arti
随着计算机和互联网技术的广泛应用和网络传播的飞速发展,传媒的形态正在不断的更新。传媒市场规模在不断增长的同时,更多的传媒转向新媒体传播方式。目前虽然新传媒还没有能
文章主要从美国学区和学校管理者的角度论述了管理者对开展社区服务的态度以及他们经常被问到的各种问题,同时还介绍了管理者对开展社区服务所提供的各种支持。
教育的发展无非就是教育供求的均衡问题。当前,我国成人高等教育的发展出现了供求失衡。常规研究路径是从供给的角度来分析供求失衡的原因,笔者则从需求的角度展开分析,提出
目的探讨新型肺功能测定技术——快速胸腹挤压法(RTC)在婴幼儿中的临床应用价值。方法选择102例2~24月龄的呼吸系统疾病患儿。入选患儿均行潮气呼吸肺功能和RTC肺功能测定,其