面向大数据处理的Hadoop与MongoDB整合技术研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:guohuiwh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着数据种类的增多和数据规模的增大,NoSQL技术与MapReduce并行处理思想越来越受到重视。MongoDB作为NoSQL数据库的典型代表,支持对海量数据进行索引和查询,Hadoop作为MapReuce的开源实现,为海量数据处理提供了强大的并行计算框架,本文致力于将MongDB与Hadoop整合到一个平台,搭建了一个基于MongoDB与Hadoop的整合体系Mongo-Hadoop,其目的是为了综合利用MongoDB与Hadoop的优点,更好地应对大数据处理中的存储、计算和查询。本文首先对Hadoop与MongoDB的框架结构以及工作机理进行了深入研究,对比分析了Hadoop与MongoDB各自的优势与不足以及两者之间的一些共性,总结出了两个问题:在数据计算方面,MongoDB MapReduce存在很大的局限性,不能满足复杂的数据分析计算。在数据存储方面,HDFS作为Hadoop的底层分布式文件系统,为数据的高吞吐量而设计,却不能实现对数据的高效查询。针对第一个问题,本文实现了Hadoop与MongoDB整合的中间连接件Mongo-Hadoop connector,通过此插件能够实现Hadoop MapReduce对MongoDB中数据的高效处理。通过本文实验验证,在两个节点的集群上,Hadoop MapReduce的性能平均是MongoDB MapReduce的5倍。针对第二个问题,本文实现了Hadoop与MongoDB的整合框架,并提出四种不同的整合方案来应对大数据处理的不同需求。Mongo-Hadoop是对MongoDB与Hadoop的整合,为实现两者更好的兼容性,集群部署和参数配置显得尤为重要。本文对MongoDB集群与Hadoop集群中的各个角色进行了深入分析,从节点资源利用、数据本地化、可扩展性等方面考虑,总结出了Mongo-Hadoop集群的部署策略,同时对影响Mongo-Hadoop运行方式和性能的部分参数作了深入研究,并对影响整体性能的关键参数作了调优。最后,本文通过设计三种具有代表性的应用作为性能的测量基准,对Mongo-hadoop整合体系的不同整合方案进行性能对比实验,得出不同应用场景下的最优整合方案。实验表明,若对Mongo-Hadoop采用合理的方案,与其他架构相比,能性能最多可以提高28%,而所占用的节点资源只占50%。
其他文献
目的探讨急性后循环脑梗死患者抗凝、静脉溶栓及动静脉联合溶栓治疗的效果。方法回顾性分析60例后循环脑梗死患者资料,发病时间为12~72 h。根据治疗方法不同,将60例患者分为抗
在社会主义市场经济快速发展的背景下,药品生产监管中的风险管理越来越受到人们的关注。通过风险管理来改善当前药品生产监管的现状,有利于药品监管部门对各个流程实施随时控
本文在对城市景观规划含义、城市景观规划原理以及福州城市景观规划的总体环境研究的基础上,提出福州市的城市景观规划和设计应结合城市景观生态学原理,通过自然景观与人文景观
练习是数学教学的重要组成部分,精当的习题不仅能巩固知识、形成技能,还能启迪思维、培养能力,数学开放题更能有效反映学生高层次的思维。数学教学中有效设计开放题,能够培养学生
在当前形式下,培养具有国际交流和竞争力的创新人才是教育者面临的重大课题,为应对时代需求,本文运用明辨性思维,从分析我国大学英语教师所面临的问题入手,探讨如何提升课堂教育教
通过盆栽试验研究了外源铜胁迫下节节草对铜的耐性机制。结果表明节节草具有较强的解毒功能,可通过多种途径提高植物对铜的耐受性。钝化根系土壤中Cu2+的生物有效性,降低土壤
基本案情建国之初,亲历了开国大典盛况的画家董希文历时数月绘制出没画<开国大典>,该画以恢弘的气势、精湛的笔法将中华民族历史上最为辉煌的一刻永久性的再现出来,具有相当
云南经济发展主动服务和积极融入"国家发展战略",是云南全面贯彻落实党的十八大以来以习近平同志为核心的党中央对云南发展的一系列重要指示精神和要求的实际体现,是云南奋力
目的 探讨不同浓度瑞芬太尼对新生大鼠海马区神经干细胞凋亡及细胞内钙浓度的影响。方法 采用已建立的新生SD大鼠海马区神经干细胞单细胞克隆系细胞株,将5&#215;10^8个&#183;