基于Hadoop的离线数据处理平台的设计与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:lyaaaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着分布式技术的发展,大数据商业价值与科研价值日益彰显,分布式运算与存储的需求不断提升,企业通过租借或购置大型服务器集群,为大数据处理任务和业务应用服务提供硬件支持。其中大数据处理任务通常分为离线(批处理)运算与实时(流式)运算两类任务,离线数据处理任务对应大规模并行运算海量数据的使用场景,广泛应用于搜索引擎、推荐系统等业务场景。若利用分布式集群部署离线数据处理作业,需要开发者学习并使用批处理运算框架,在原有应用程序的基础上进行额外开发,这一过程增加了公司业务的软件开发与维护成本,也不利于不同部门之间分布式技术使用标准的统一。搭建离线数据处理平台,可以为业务部门与集群硬件之间搭建桥梁,简化开发者离线数据处理作业的部署流程,统一有效地管理分布式集群,提高业务程序迭代推新的效率。本文采用Hadoop框架设计并实现了离线数据处理平台,论文工作主要集中于离线数据处理平台的底层及后端模块的设计与实现。本文设计并实现了基于Hadoop框架的作业引擎,用于该平台的底层任务调度功能,是平台的关键模块。作业引擎基于Yarn的应用状态和容器状态设计并实现了作业级别和任务级别两种状态机,作业通过Yarn与作业引擎的协同工作从初始状态驱动至结束状态,通过为作业引擎各子模块设计恢复流程,避免了作业引擎因意外或升级导致的服务中断给用户作业带来的影响。对于该平台模组层,本文设计并实现了深度学习离线运算模组和交互式开发服务模组。深度学习离线运算模组采用Spark框架为深度学习运算任务进行数据并行化加速。交互式开发服务模组使用Jupyter、Spark Magic和Livy为用户提供了可自定义配置、灵活部署的容器化交互式开发服务,平台设计并实现了自动配置、云备份、服务监控等扩展功能以提升用户交互式开发体验。此外,本文设计并实现了平台门户与用户进行交互,门户服务端提供了任务管理、模组管理、平台鉴权等必要功能,降低了用户使用模组、管理集群任务的复杂度。离线数据处理平台自投入公司搜索引擎业务线使用以来,支撑了搜索引擎多个业务部门的离线数据处理工作,为有关部门开发者提供了稳定、高效的分布式算力,为公司节省了大量人力、物力,有效促进了搜索引擎业务的发展。
其他文献
随着机械、航空航天、汽车工业等领域追求轻量化发展,轻质铝合金材料得到了广泛的应用。利用传统方式加工铝合金材料容易出现破裂、回弹、起皱等缺陷,会降低工件的性能和尺寸精度。电磁成形工艺是一种高速成形工艺,利用瞬时的脉冲磁场对金属工件进行成形加工,有成形速度快、效率高、表面质量高等特点。应用于铝合金等轻质合金材料的成形时,可以提高材料的塑性成形性能,获得质量好的成形工件。本文提出一种逐点连续柔性板料电磁
学位
嵌段共聚物纳米材料由于具有独特的结构和性质而被广泛应用。近年来发展的聚合诱导自组装(PISA)方法可以高浓度制备具有不同形貌的嵌段共聚物纳米材料,其中基于可逆加成断裂链转移(RAFT)调控的PISA为高效制备具有明确组成及功能性的嵌段共聚物纳米材料提供了有力途径。作为主流的异相聚合方法之一,RAFT乳液聚合由于具有单体适用范围广、聚合速度快、体系黏度低、操作简便以及自由基纳米隔离效应等优点,被研究
学位
敦煌壁画艺术是中华文化历史长河里的璀璨明珠,《张议潮夫妇出行图》作为礼佛世俗化的开端代表之一,其中的艺人人物形象极具艺术价值。在“文创热”和“盲盒热”的今天,品牌愈发注重从传统文化中汲取养分,愈发注重传统文化在现代社会语境下的再设计。利用ELM理论创新文创设计模型,对《张议潮夫妇出行图》中艺人人物形象进行文创盲盒设计,巧妙地将中国传统文化与中国现代设计融为一体,实现了优秀传统文化的创造性转化与创新
学位
城投债是指城投公司对外发行的债券,它带有浓厚的中国特色。城投公司之所以发行城投债,其主要目的是向社会筹集用于社会公益性项目建设或者城市基础设施项目建设的资金。城投债最早出现的时间大概是二十世纪九十年代,它的出现使得地方财政资金不足的问题得到了有效缓解,有力推动了地方经济发展。城投债从诞生至今,一直作为刚性兑付的债券代表,在债券市场上受到了大量投资者的追捧。但不可忽视的是,随着城投债发行额的日益增多
学位
太阳能水蒸发在低能耗淡水生产中具有重要作用,对人类健康和经济发展都是必不可少的。近年来,太阳能驱动的界面水蒸发被认为是一种新兴的替代传统水蒸发的方法,因具有较高的太阳能转换效率和改革性的工业潜力而受到广泛的研究关注。光热转换材料是太阳能水蒸发系统的关键,本文利用ⅣA族中碳、锗元素的纳米颗粒作为光热转换材料构筑用于获取淡水的太阳能水蒸发器。论文的主要内容和结果如下:(1)以石墨烯纳米片为光热转换材料
学位
随着电子设备及器件的小型化、集成化和多功能化,亟需能够快速散热和提供有效电气绝缘的电子封装材料。良好的封装材料是电子设备工作稳定性和性能提高的保证。热界面材料(Thermal Interface Materials,TIMs)作为电子封装材料的重要一员,通常是一种聚合物复合材料,用于热源和散热器之间的热扩散,目前已经被广泛应用于下一代的电子元器件、电力系统以及高速通信设备中。聚合物树脂,如聚乙烯、
学位
聚合物纳米胶囊具有封装、保护和释放各种组分的能力,因此广泛应用于药物运输、生物催化、水净化、抗菌等领域。与其它纳米载体系统(水凝胶,树枝状聚合物和脂质体)相比,聚合物纳米胶囊具有功能性多样、尺寸可控和负载能力强等一系列优势。近年来,模板法、自组装法和微乳液法等聚合物纳米胶囊制备方法发展迅速。Reversible addition-fragmentation chain transfer(RAFT)
学位
白龙山锂多金属矿床是近年来新发现的超大型伟晶岩型锂矿。石榴石在白龙山锂多金属矿床中广泛分布,对矿区内白云母花岗岩和不同伟晶岩带中的石榴石进行EPMA主量元素和LA-ICP-MS微量元素分析,探讨岩浆-热液演化过程中Fe,Mn,Y,Sc和REE等元素的地球化学行为和大规模稀有金属成矿的矿物化学依据。据石榴石赋存岩石的岩性不同,分为白云母花岗岩中石榴石(GrtⅠ)、不含矿伟晶岩带中石榴石(GrtⅡ)和
期刊
金属卤化物钙钛矿由于其高性能的光电特性而引发了持续的研究兴趣。然而,对蓝光可激发近红外(NIR)发射金属卤化物钙钛矿材料研究较少,实现具有耐热淬灭性能的该类材料仍然是一个巨大的挑战。本论文分为三个章节,包括了两个方面:一是从设计合成蓝光可激发的金属卤化物钙钛矿材料再到以其为基质进行镧系元素的掺杂;二是通过改变碱金属离子设计合成新的低维钙钛矿材料。第一章首先概述了钙钛矿材料的发展现状并对全无机金属卤
学位
随着现代工业的高速发展,传统的传热工质(水、油、醇等)已无法满足热利用场所日益增加的传热负荷。将具有高导热的纳米颗粒和高比热的相变微胶囊与传统工质相结合,以达到强化传热的目的。本文搭建了流动传热实验系统,以Si O2-H2O纳米颗粒悬浮液、相变微胶囊悬浮液、混合颗粒悬浮液三种固体颗粒悬浮液为研究对象,通过实验分析了固体颗粒悬浮液在圆管内的传热特性、流动特性及综合强化传热特性。主要工作如下:(1)采
学位