【摘 要】
:
随着移动互联网、云计算等的快速发展,数据规模迅速增长,大数据的应用场景愈加复杂。以微软、Yahoo!等为代表的互联网公司以及Apache开源社区研发了一系列针对大数据的处理工具,由最初的批处理计算发展到现在的流计算和实时交互式计算。不同的计算框架面向不同的应用场景,批处理系统适合处理数据量大且对实时性要求不高的场景,流处理系统有快速的响应能力,但不能对结果重复计算,且对硬件的要求比较高。批处理和流
论文部分内容阅读
随着移动互联网、云计算等的快速发展,数据规模迅速增长,大数据的应用场景愈加复杂。以微软、Yahoo!等为代表的互联网公司以及Apache开源社区研发了一系列针对大数据的处理工具,由最初的批处理计算发展到现在的流计算和实时交互式计算。不同的计算框架面向不同的应用场景,批处理系统适合处理数据量大且对实时性要求不高的场景,流处理系统有快速的响应能力,但不能对结果重复计算,且对硬件的要求比较高。批处理和流处理通常要部署两套集群,数据在批流两套集群中流转,造成部署和运营成本上升。单一的计算框架已经逐渐无法满足对复杂数据处理的要求,业界迫切需要一个能同时满足离线和实时计算需求的框架,降低数据管理和运营成本。目前业界已经出现了一些支持批流计算模式的框架,比如开源社区的Flink,阿里巴巴的Blink,腾讯的Oceanus,这些框架旨在融合多种计算系统,将大数据处理平台进行统一以提供多种计算服务。然而,在构建批流一体计算平台过程中,如何将不同系统中的数据和权限做到统一管理,如何实现批数据和流数据在表达和查询的统一,如何优化数据查询操作,并保证批流一体计算结果的准确性,仍面临一系列挑战。针对上述问题,本文重点开展了以下两方面的研究:一方面,针对批数据和流数据的统一表达和查询问题,引入动态表和对流式数据的撤销操作,同时形成了一套将任意标准的SQL转化为实时计算程序的方案,保证了对批流数据查询的准确性,达到了对批数据和流数据使用一套SQL进行查询的目的,实现了批流数据的统一表达和查询。同时,针对不同大数据系统元数据和权限的统一管理和维护问题,提出了元数据管理系统Meta Service,且基于Meta Service,实现了权限统一管理系统,达到了在任意一个大数据系统中生成数据都可以在其他系统中无缝衔接使用的效果。另一方面,为了对大数据处理系统Spark的优化器Catalyst查询性能进行分析优化,从基于规则(Rule-based optimization,RBO)和基于代价(Cost-based optimization,CBO)两个方面,研究分析了Catalyst对SQL语句的优化策略。同时,选择了包括Combine Filters等众多优化规则,对Catlayst基于规则的优化性能进行了实验。在改变负载和集群规模的条件下,分别研究了RBO和CBO对SQL查询语句的优化效果。最后,针对Catalyst处理SQL语句执行过程中的参数设置给出了优化建议,包括设置数据处理并行度,设置Driver和Executor的进程参数以及使用广播变量,实验结果验证了优化建议的有效性。本文所研究的批流一体计算平台的关键技术可用于在搭建批流一体平台过程中实现批流数据的统一表达和查询,提升对批流数据的处理能力,降低集群搭建的开销,同时也对元数据和权限进行统一管理和维护,形成对批数据和流数据的高效管理。对于Spark查询优化器Catalyst对SQL的查询处理优化的分析,能对社区开发者进一步改进优化器性能提供启发和借鉴作用。
其他文献
微服务是一种轻量级的体系结构,由多组模块构成,每个模块都是具备独立软件开发生命周期与环境的服务,每个服务都可以使用独立的编程语言,可以很容易地进行修改和缩放,服务之间相互依赖,且耦合度低,通过轻量协议RESTful API风格通信。目前很多企业都在从单体架构向微服务结构迁移,对于架构转换的研究有很多,但仍存在一些问题,包括从单体架构的繁杂的系统资源(业务代码、业务流程、系统描述文件等)中准确定位微
作为一种近年发展起来的新技术,绿色装配式面层以其轻质、环保及施工便捷等特点被广泛应用于支护领域。由于其轻质的特点,风荷载作用下面层的稳定性问题还鲜少有人研究。基于
党的十八届三中全会标志着我国的改革创新事业进入了深水区和攻坚期,既无现成发展模式可借鉴,也无成熟的现成经验可遵循,风险和挑战、挫折与失误并存。众所周知,改革往往与政府的创新行为相挂钩,包括制度创新、政策创新和服务创新等,这些都对地方政府的治理理念、治理能力和服务水平提出了更高的要求。同时,我国的经济环境、政治环境、舆论环境、政策导向、价值观念、道德标准都在不断改变,尤其是在全面从严治党提出后,干部
随着“智慧城市”建设的不断推进,目标跟踪任务作为计算机视觉的重要领域之一,在民用与军用领域的方方面面发挥了重要的作用,有巨大的发展空间。然而,受限于目标跟踪对准确率与实时性的双重高要求,目标跟踪与深度学习的结合尚未获得最佳效果,孪生网络作为目标跟踪领域异军突起的新力量,在跟踪准确率和跟踪速度上有极大的发展潜力。本文首先对孪生网络与目标跟踪基础理论进行介绍,并对孪生网络在目标跟踪领域的破冰之作,Si
传统装饰元素是我国悠久的历史文化与艺术内涵的外在体现,在我国丰富多样的传统装饰元素中,万字纹无疑是其中历史尤为古老,精神意蕴与思想内涵尤为丰厚的一支。它是我国传统
随着城镇化建设进程的加快,硬质化铺面面积的不断扩大,使得城镇原有的水文特性发生改变,引发严重的城镇内涝灾害。同时地表径流携带的大量污染物,未经处理直接排入受纳水体使得水环境日益恶化。以海绵城市的建设理念为主导方向,采用低影响开发(LID)措施是解决这一问题的有效途径。本研究在对扬州市邗江区不同类型绿地的径流雨水以及土壤特性进行分析的基础上,对增渗改良后城市绿地土壤的渗蓄及净化效果进行评价,结合雨水
猪伪狂犬病(Rseudorabies,PR)是由伪狂犬病病毒(Rseudorabies virus,PRV)引起的多种家畜及野生动物共患的急性,热性传染病,以呼吸困难和精神紊乱为主要特征。伪狂犬病病毒属于疱疹病毒科,α-疱疹病毒亚科,水痘-带状病毒属。临床上PRV感染以新生仔猪神经紊乱、死亡、成年猪呼吸困难、母猪繁殖障碍为特征,给养殖业带来严重的经济损失。自2011年以来,高致病力的PRV在我国猪
音乐是能够净化心灵的一种艺术,在现代社会,音乐教育更是培养复合型人才的一个重要渠道。随着新课程改革的实施,素质教育越来越受到重视,小学音乐教育已成为亟待加强的关键环节。但是由于各个地区的发展状况不一,导致城乡教育发展不均衡,有的小学音乐教育较为落后。尤其是偏远的农村小学,不管是办学条件、教育投入,还是师资水平都存在一些不足,造成了城乡音乐教育不公平的现象。因此,要想改善这一现状,就要深入探究,分析
破坏边界对斜坡的稳定性有着至关重要的影响,反倾岩质斜坡破坏边界的形成和发展规律更是值得研究的科学问题。本文通过对反倾岩质斜坡进行了离心机试验确定了破坏边界的位置,同时对破坏边界部位裂隙的变形规律和土压力进行分析总结,揭示了破坏边界的形成过程及发展规律,最后利用PFC数值模拟软件对离心机试验进行了模拟,重点研究了破坏边界形成过程中的接触力、位移、速度、应力和动能的演化过程。主要研究内容如下:(1)针
随着社会经济和城镇建设的快速发展,城市建筑物逐渐呈现高大化,密集化的特点。火灾事故日益增多且形式多样化,导致消防难度增加,一旦发生火灾极易产生巨大人员伤亡和财产损失。为达到高效灭火,保护人民生命和财产安全,精准定位火源位置显得极其重要。但在实际射流过程中,消防水炮射流轨迹会受各种参数不确定性影响,这些参数也会影响射流靶点预测精度,降低灭火效率。因此,研究消防水炮射流轨迹和靶点不确定性具有重要的实际