【摘 要】
:
随着互联网技术的发展,互联网产品日益丰富,用户对互联产品的使用不断增加,所产生的海量数据给行业带来了巨大的机遇与挑战。一方面,通过分布式计算技术和数据挖掘算法可以从数据中提取有用的信息。另一方面,由于数据规模浩大、结构复杂,处理数据时经常面临一些严峻的问题。其中分片倾斜就是分布式大数据计算中一种常见的性能瓶颈。作为一种广泛应用的分布式大数据计算引擎,Spark在运行计算任务时,也饱受分片倾斜的困扰
论文部分内容阅读
随着互联网技术的发展,互联网产品日益丰富,用户对互联产品的使用不断增加,所产生的海量数据给行业带来了巨大的机遇与挑战。一方面,通过分布式计算技术和数据挖掘算法可以从数据中提取有用的信息。另一方面,由于数据规模浩大、结构复杂,处理数据时经常面临一些严峻的问题。其中分片倾斜就是分布式大数据计算中一种常见的性能瓶颈。作为一种广泛应用的分布式大数据计算引擎,Spark在运行计算任务时,也饱受分片倾斜的困扰。分片倾斜问题,通常表现为Spark分片负载不均衡,一些任务处理的数据量远大于其他任务,这不仅会浪费系统资源、降低计算效率,甚至可能还会导致任务执行失败。因此,为了保证Spark作业的高效顺利的执行,中间数据分片算法的研究十分重要。现存的Spark分片算法并不全面,它们没有考虑Map端聚合对数据变化的影响,也没有关注在Shuffle操作执行后分区中的数据量的变化。为了解决Spark计算框架下分片负载不均的问题,本文提出了一个中间数据分片方法SKRSP(Spark-based key reassigning and splitting partition algorithm)。它包含两个部分:中间数据键分布预测、分片策略生成与应用。其中,中间数据键分布预测用于估计键的频率,它首先在选取的RDD(Resilient Distributed Dataset)分片数据上执行一个基于步长的采样算法,然后结合Map端聚合的影响来估计中间数据的键频率分布。基于此,提出了一种分片划分标准,即考虑Shuffle操作前后的分片平衡,并基于此标准设定键权重为中间数据键频率、Shuffle后键频率之和,然后再基于此权重计算分片策略。分片策略分为两种:一种是针对于排序应用的基于范围的键分割方法,其按键的顺序将所有键划分为等量的区间,位于区间边界上的键将被分割到相邻区间;另一种是针对非排序应用的基于哈希的键分配方法,其先预测可能发生倾斜的哈希分区,然后将该倾斜哈希分区的超出均值的一部分键分配到其他分区,而剩余的一部分保留到原哈希分区。最后,将分片策略应用到Shuffle阶段的具体分片过程中,以此达到分片负载均衡的目的。最后,本研究在Spark 2.2.0源码中添加了SKRSP分片方法并生成部署包,然后在实际的Spark集群上进行了实验,验证了中间数据键分布预测算法的精确性和有效性,以及基于键分布的分片策略的生成和应用确实可以降低Spark分区的倾斜程度和Reduce阶段任务的运行时间,从而降低了整体任务的运行时间。
其他文献
谷氨酸棒状杆菌(C glutamicum),革兰氏阳性细菌,是应用于发酵生产中最重要的菌种之一,常被用来生产L-赖氨酸,L-谷氨酸,谷氨酸钠和L-谷氨酰胺(L-Gln)等。谷氨酰胺合成酶(GS)是
农业机械化是提高农业生产率、优化农业产业结构、促进农村劳动力转移、增强农村土地效能和降低农民劳动强度的主要手段。农业机械化作业水平是衡量某地区农业机械化发展水平
针对地表水环境污染和饮用水源污染的实际情况,研究强化垂直流及生物慢速渗滤人工湿地对模拟微污染水的处理效果;另外,研究磁性氧化石墨烯的制备和改性及其对水中四环素的处
探讨物种分布变化随气候变化的机制,对维持生态系统功能完整性、保护生物多样性具有举足轻重的意义。水鹿(Rusa unicolor)和羚牛(Budorcas taxicolor)是国家重点保护野生动物
乳状液驱作为一种重要的提高采收率手段,其适应性、驱油机理及提高采收率效果已经得到国内外学者广泛的研究,但由于实验技术及材料的局限性,乳状液对微观剩余油的影响及乳状
聚己内酯(PCL)是一种重要的半结晶聚合物,具有生物降解性、低温粘接性、与多种非晶态聚合物良好相容等优势,一般作为生物医用材料与生物可降解材料来使用。有关聚己内酯与非
蜂房哈夫尼通常被认为是一种条件致病菌,生存范围非常广,能够从人类和动物的肠道中分离获得,自然环境中的河流、海洋以及土壤中都可以检测到蜂房哈夫尼菌,食品中更是常见,冷藏的牛奶、肉制品以及鱼肉中都存在大量的蜂房哈夫尼菌。研究表明,蜂房哈夫尼菌能够令食品产生硫化氢,酸性气味,这也是导致食品腐败的原因。蜂房哈夫尼菌能够在低温环境中生长,所以对于低温冷藏的食品,蜂房哈夫尼菌的危害较大。因此,本文的主要目的是
伴随着社会经济的发展,城市化进程加快、人民消费水平的提高等,垃圾产量日益增多,对环境造成的污染也日益严重,城市垃圾焚烧发电是我国乃至全世界广泛采用的城市垃圾处理方式。但由于城市垃圾焚烧发电项目投资大,回收期长,政府为缓解财政资金,提高资金使用效率,因此城市垃圾焚烧发电项目BOT模式应运而生。但是,BOT模式下城市生活垃圾焚烧发电项目前期投资较大,成本回收期较长,对项目公司工艺处理技术要求高,因此具
德惠断陷北部火山岩岩石类型多样、非均质性强、成岩作用复杂、有效储层的控制因素认识不足,不利于火山岩油气藏的勘探与开发。针对上述问题,本文基于钻井岩心、岩心薄片、测
本文基于CN05.1中国气温观测数据集、ERA-Interim再分析资料、OISST海温资料以及CMIP6模式结果等资料,首先利用层次聚类算法对中国东北夏季极端高温事件的大气环流进行分型,