基于Spark的分布式ETL研究与应用

来源 :东华大学 | 被引量 : 15次 | 上传用户:rongtian2588
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,越来越多的数据需要被人们处理和使用。对于企业来说,数据已经成为企业的生存基础,能否利用好自己的数据对企业的未来发展至关重要。数据仓库技术为企业分析海量数据提供了一种有效方案,而在数据仓库的构建过程中,ETL往往是整个过程中最为耗时和复杂的阶段。处理数据量的日益增长,对ETL技术提出了更高的性能要求,也带来了更大的挑战。为了应对海量数据的ETL处理需求,基于分布式并行技术进行ETL很有必要。当前基于MapReduce范型实现的分布式ETL方案能够实现海量数据的高效处理,但是由于Map Reduce编程模型的限制,即只有Map/Reduce两种处理方式,以及多步的处理过程中存在的高I/O开销,使其在ETL的转换过程中存在一些性能问题,处理效率和处理速度方面还有许多优化空间。针对大数据的“海量”特征,以及基于Map Reduce范型实现的分布式ETL方案的局限性,本文结合数据仓库理论知识和分布式处理技术,基于Spark对分布式并行ETL技术进行了研究,提出了一种分布式ETL的设计方案,重点研究了数据转换过程中转换处理的并行实现,根据不同的转换处理类型给出了适用的解决方法。针对前期非聚集操作,如基本的数据清洗,数据格式标准化操作,提出了基于分区的并行管道处理算法,以分区为单位进行数据处理,从而提高数据转换的效率;对于聚集操作,如事实表的数值数据的聚合操作,采用了分区预聚合方法,以减少数据传输频率。实验结果表明,提出的方法能够明显加速大数据量的转换处理,进而提高分布式ETL的性能和处理效率。之后本文对基于Spark的数据处理流程进行了性能优化研究。详细分析了Spark在处理中的常见数据倾斜问题,根据不同场景下的数据倾斜情况,分别给出了对应的并行调优策略。相关实验表明了调优策略的有效性。最后,基于一个实际的决策支持系统开发,阐述了基于Spark的分布式ETL的设计与应用情况,包括与传统ETL开发方案的比较分析,分析结果表明了本文提出的基于Spark的分布式ETL方案的有效性和高可扩展性。
其他文献
<正>2017年年末,黑龙江省社会科学院有关专家应邀参加了在中国社会科学院召开的"新时代中俄区域合作的机制与途径"学术研讨会。通过与北京、上海、新疆及河北等地专家学者的
随着信息技术的发展,作为教育信息化基础的信息化学习方式在今天的教育环境下显得尤为重要,而在教育信息化基础上发展而来的信息化学习环境也日臻成熟。本文首先阐述了信息化
志愿服务是大学生服务社会的重要方式,也是一项公益集体行动。但在具体实践中,大学生志愿服务存在人员流动大、服务效益低、组织运作难等诸多问题,所产生的社会效益并不理想
目的:探讨恶性肿瘤患者并发急性下肢深静脉血栓(deep vein thrombosis of the lower extremity,DVT)的形成原因、诊断要点与治疗、护理及预防措施,为相关治疗提供参考。方法:
<正>党的十九大报告指出,经过长期努力,中国特色社会主义进入了新时代,这是中国发展新的历史方位。我国经济已由高速增长阶段转向高质量发展阶段,正处在转变发展方式、优化经
随着自动控制技术、灯光渲染技术等的应用,灯光渲染效果不断增强,可以显著提升舞台的时尚感,烘托舞台表演气氛。本文从舞台灯光控制系统的构成入手,重点就其设计内容进行探究
虐待罪是我国现行刑法规定的告诉才处理的犯罪,刑法第二百六十条第二款规定"致使被害人重伤、死亡的"作为虐待罪告诉才处理的例外规定,《刑法修正案(九)》在第二百六十条第三
随着世界经济和人口的飞速增长,全球各国对能源的需求也日益增多。从1993年开始,我国已成为油气进口国,油气对外依存度逐年增加。中国埋深浅于2000米的煤层气资源量为36.81万
目的探讨安宫牛黄丸的实验研究内涵。方法根据安宫牛黄丸实验研究资料分类介绍。结果安宫牛黄丸实验研究内涵主要体现在:对方中黄芩、栀子、郁金、黄连、牛黄、麝香、朱砂、
私家车高保有量的背后却是私家车的高空载率,交通资源浪费巨大,私家车拼车成为节约交通资源的有效途径。文中在综述了私家车拼车行为影响因素、拼车推广可行性、拼车费用分配