基于Hadoop的交通物流大数据处理系统设计与实现

被引量 : 0次 | 上传用户:hao1238888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据处理技术对于各行业和政府部门的决策分析和运营起到日渐重要的作用。本文以某省交通物流云平台项目为背景,该项目要求以MapReduce作业执行框架和Hadoop为技术基础,为数以千计的交通物流企业和政府部门的交通物流SaaS应用提供大数据处理服务。由于面向交通物流的大数据处理应用开发涉及交通物流业务专家、数据分析专家和应用程序开发人员等多个角色,因此,如何实现多角色协同的大数据处理应用敏捷开发是需要解决的关键问题。另外,虽然MapReduce工作流引擎Oozie可支持大数据处理应用的流程化组装,但是,如何防止Oozie在执行时由于结点之间的数据依赖而导致执行效率低,也是需要解决的实际问题。针对上述问题,本文在对MapReduce、Hadoop、Oozie等相关技术进行分析的基础上,提出并实现了一种上下游结点部分并行的MapReduce工作流执行优化方案,设计并实现了一个支持协同开发和工作流组装的交通物流大数据处理系统。测试和应用情况表明,该系统是可行及有效的。与同类系统相比,本文工作具有以下特点:1)针对MapReduce工作流执行效率低的问题,提出上下游结点部分并行的MapReduce工作流执行优化方案。该方案利用MapReduce作业的Reduce Task完成时间不同的特点,下游结点不必等待上游结点完全结束即可触发执行,从而使上下游结点部分并行执行,提高工作流执行效率。2)在Hadoop的基础上,提出并实现支持追加输入的MapReduce作业执行框架。该框架支持正在执行的MapReduce作业可追加输入数据,从而为上下游结点部分并行的MapReduce工作流引擎提供基础。3)在Oozie的基础上,实现支持上下游结点部分并行的MapReduce工作流引擎,该引擎具有双执行器,能够自动识别具有MapReduce作业的工作流并选择上下游结点部分并行模式执行。对比实验结果表明,在Reduce Task数量大于集群中Reduce Slot数量时,采用部分并行执行模式的工作流执行效率提高19%左右。4)针对多角色协同的大数据处理应用开发问题,重点为开发者提供了大数据处理组件集成开发环境。该集成开发环境以Hadoop Eclipse插件为基础,增加了测试沙箱功能,开发者可以在该环境中完成组件的开发、测试和部署。
其他文献
在生产力不断发展的今天,来自世界各地的不同品牌、不同种类的产品不断地提升人们的审美观念,各种产品的使用方式也在不断地优化。在人们的生活水平不断提高的现实背景下,要
20世纪40年代中期,社会学家费孝通、陈序经先后访美,分别留下了较详细、系统地介绍美国文化的著述,希望借鉴美国经验,推动中国抗战胜利后的社会与文化重建,改变中国以落后农
目的检测结肠腺癌中组织蛋白酶(Cath)-B、D和上皮型黏附素(E-cadherin)的表达,探讨其临床意义。方法 63例结肠腺癌患者的临床资料及术后存留的组织作为观察组,距肿物边缘大于
<正>无论从理论发展视角还是从现实实践演进来看,当今中国确实需要回归马克思主义的政治经济学批判,这是基于以下三点得出的认识:其一,对马克思主义"真精神"的认识;其二,对"
科技企业初创期资金投入大、风险高等特点决定了其在融资方面必然面临诸多问题。从全球范围看,多数发达国家已经采取了适合有效的科技融资模式化解高科技企业融资难题。我国
中小学生课业负担过重的伦理学思考●江苏龚建新奚春兵《关于全面贯彻教育方针,减轻中小学生过重课业负担的若干意见》颁发已久,但是中小学生课业负担过重的现象依然严重存在,只
考虑政府制定碳限额政策对具有不同碳排放水平的两个寡头竞争企业(高碳企业和低碳企业)定价和碳排量决策的影响,探讨了在不同碳限额下两企业的产量、价格、收益及碳排放总量
<正>在中国的传世经典陶瓷艺术作品中,有很多与莲花有着千丝万缕的联系。莲花是整个佛教的象征,以莲花的纯洁表示佛国净土,佛教中有"出五浊世,无所染着"来赞誉莲花的圣洁。东
目的探讨低温等离子射频消融和传统手术行儿童扁桃体腺样体切除术在术后出血方面存在的差异特点,并提出应对策略。方法选取2014年于我科行扁桃体腺样体射频消融术999例为等离
<正>2015年12月16-19日,以"品质家居、绿色生活"为主题的第三届湖南家具博览会在中部最大的家居产业集群大平台之一的"湖南益阳·顺德城"隆重举行。湖南省人民政府副省长戴道