【摘 要】
:
针对大数据中的“海量”特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的
【基金项目】
:
上海市信息化发展基金项目(XX-XXFZ-05-16-0139)
论文部分内容阅读
针对大数据中的“海量”特征,基于Spark研究并行ETL技术的相关内容,提出并设计一种分布式ETL方案,对不同的转换处理分别采用对应的并行方法。针对一般的非聚集处理,如常见的数据清洗、数据格式标准化处理,采用基于分区的并行管道处理算法,使数据处理在分区单元中快速完成,提高数据转换的效率;对于相应的聚集处理,如数据仓库中常见的数值数据的聚合处理,使用分区预聚合方式,最大限度降低数据传输的频次。相关实验结果表明,两种并行处理方法能够有效提高分布式ETL的处理效率和性能,加速大数据量的转换过程。
其他文献
在处理某大型企业的海量后勤大数据时,传统的基于MapReduce的ETL技术在数据提取、转换过程中,因为频繁进行磁盘读取的原因,存在数据处理效率不足的问题。考虑到Spark是基于内
随着移动互联网的兴起,移动用户数目激增。电信运行商们所拥有的用户数均达到了亿级。作为电信运行商核心业务的计费与结算所涉及的总数据量上升到了 PB级别。收入分摊是这一
"不见黄河心不死"中的"黄河"意象是民间故事中的人名到俗语中河名的变异,而这种变异的本质是人类在真善美诸方面心态的表现,从中可看出民族的心理及心理结构。黄河意象的变异
在以新疆1:250000 DEM数据为基础,通过认真分析新疆基本地貌特征,在GIS系统的支持下,利用邻域分析方法,选取2×2,3×3,4×4,…,21×21,25×25,30×3
八绳防摇系统是对常规的轮胎式龙门起重机防摇装置起升绳悬吊系统进行的改进,对提高轮胎式龙门起重机效率和减轻司机的劳动强度有明显的作用.
目的:采用膜片钳单通道记录法,对新生SD大鼠的皮层神经元中,钙激活钾通道(KCa)特征,及胞内不同游离钙水平,开放动力学的调节。结果:培养SD大鼠皮层神经元中,KCa以大电导活动
针对新疆地域辽阔,地形起伏巨大,山地层状地貌显著,盆地封闭、干旱,风成和流水地貌发育等特点,着眼于地貌与农业的关系,采用形态与成因相结合的分类原则,以地貌与农业关系密切的海拔
中国是礼仪之邦,注重礼仪是中华民族的传统美德.中共中央颁布的<公民道德建设实施纲要>指出:"开展必要的礼仪、礼节、礼貌活动,对规范人们的言行举止,有着重要的作用".因此,
在抗震设防烈度为8度及以上的地区,当建筑物的基础采用预应力高强混凝土管桩时,应验算桩的抗剪承载力能否满足较大底部剪力的要求。通过某小区预应力高强混凝土管桩的结构设
文言文是语文课程体系的关键组成部分,是培养学生传统文化素养的重要内容载体,其以发展学生道德情操,提升综合素质为主要任务,对于处在“三观”养成与人格塑造关键阶段与适应