【摘 要】
:
并行排序算法在分布式集群上的主要挑战是如何使各节点的工作负载相对均衡,因为负载不均衡容易导致数据倾斜问题,原始数据集倾斜的数据分布与大量的重复关键字是造成此问题的主要原因。对于基于分区的并行排序算法而言,解决数据倾斜问题的核心是分离器的划分策略能够尽可能均匀地划分原始数据集。在本文中,我们总结了一个高效的分离器在划分原始数据集时必须满足的6条标准。我们在Spark集群上针对Bucket Sort、
【基金项目】
:
国家自然科学基金重大项目 U181140001《基于超算的大数据分析处理基础算法与编程支撑环境》;
论文部分内容阅读
并行排序算法在分布式集群上的主要挑战是如何使各节点的工作负载相对均衡,因为负载不均衡容易导致数据倾斜问题,原始数据集倾斜的数据分布与大量的重复关键字是造成此问题的主要原因。对于基于分区的并行排序算法而言,解决数据倾斜问题的核心是分离器的划分策略能够尽可能均匀地划分原始数据集。在本文中,我们总结了一个高效的分离器在划分原始数据集时必须满足的6条标准。我们在Spark集群上针对Bucket Sort、Counting Sort、Pigeonhole Sort、Radix Sort以及Sample Sort设计了对应的基于分区的并行排序算法,并针对每种算法分析了其满足分离器划分策略6条标准的情况。对于样本排序我们设计了两种不同的分离器划分策略:百分位分离器划分策略与次优分离器划分策略。百分位分离器划分策略专注于均等地划分数据集,不考虑某一热key的分区中可能存在非热key的情况;而次优分离器划分策略通过一种等区与不等区的划分机制保证了热key与非热key不在同一分区之中,又通过等区切分、小分区合并以及分桶再平衡策略的手段尽可能保证了其能够均匀地划分数据集。分桶再平衡策略的工作原理是将热key数据通过Round-Robin的方式均匀地划分到多个分区之中。我们在一个具有32节点的总内存容量为768GB的Spark集群中对各算法进行了实验。实验证明,对于含有大量重复关键字的数据集,在已实现的6种并行排序算法以及Spark自带的sort By算子中,样本并行排序算法有着最小的排序时间开销以及最均衡的负载分布,并且使用百分位分离器划分策略的样本排序比使用次优分离器划分策略的样本排序有着相对更少的排序时间,但后者具备热key数据与非热key数据不在同一分区的特点。
其他文献
水利工程关乎民生,与全人类的生活息息相关。为系统分析水利工程方案优选的研究现状,探索水利工程方案优选研究方法,以中国知网数据库收录的水利工程方案优选文献为基础进行了文献计量分析,从借助VOSviewer可视化分析功能进行了研究热点聚类分析,并且结合国内洪涝灾害年度损失统计对发文数进行分析。聚类分析包括国内作者合著与关键词共现两个方面。结果表明:模糊多属性决策、投影寻踪、熵权法、模糊分析、topsi
为规范水利水电工程信息模型(WPIM)数据在全生命期各阶段的存储和交换,基于国际标准Industry Foundation Classes(IFC 4.0.2.1)规定的数据模式,研究了水利水电工程信息模型的数据存储标准。结果表明:在IFC标准规定的领域层、共享层与核心层中新增水利水电工程空间结构单元(Spatial Structure Element)、构件单元(Element)两类实体和相关关
为进一步了解油茶的主要化学成分及潜在的药用价值,以期为实现油茶产业的持续发展提供参考。采用文献查阅法,以“油茶、化学成分、药理活性、黄酮类、多糖类、多酚类和皂苷类”等为关键词,组合查阅了与油茶化学成分及药理活性相关的文献并进行综述。油茶中主要化学成分主要包含三萜及三萜皂苷类、黄酮类、多酚类、脂肪酸类等,以皂苷类及黄酮类成分研究居多,其中皂苷类成分以齐墩果酸型为主,黄酮类成分以槲皮素、山柰酚为主。其
质量检测对保障水利工程施工质量起着不可替代的作用。结合工程实例,对质量检测在混凝土配合比设计中的应用进行探讨,重点对原材料质量检测和配合比试配过程质量检测的主要内容进行详细阐述,为合理确定混凝土配合比提供科学依据,对工程施工具有显著的指导意义。
传统的排序方法主要以软件串行的方式实现,包括冒泡排序、选择排序等。这些算法往往采用顺序比较,运算的时间复杂度较高。近年来已经提出了一些并行度较高的排序算法,但是由于CPU的硬件特点,不能很好地利用这些算法的并行性。而FPGA具有良好的灵活性、并行性和集成性等特点,因此在FPGA上可以更好地发挥这些并行算法的优势,从而大大提高数据排序的实时性。基于此设计了一个CPU-FPGA异构系统,将一些排序算法
我国现在的水利工程有很多,堵盖的范围非常广泛,在运行管理方面的任务非常的繁重。同时我国的水利工程智慧化建设比较落后,因此在水利工程的运行管理中,应该充分地使用智慧化的运行管理方式,使得水利工程能够发挥到最大的作用,基于此,本文针对水利工程建设中智慧化运行管理的重要意义以及水利工程智慧化运行管理中的问题进行了说明和介绍,最后对水利工程智慧化运行管理的方式进行了详细的阐述。
伴随架子鼓越来越多的走进各个家庭,对架子鼓教学的要求日益上升,本文针对儿童业余架子鼓教学的现状做出相应分析,主要从教师、教材和上课模式三个方面探讨。根据现状分析儿童业余架子鼓教学中的问题并给出解决对策,以期在一定程度上利于儿童架子鼓教学的发展。
在我国经济飞速发展的同时,也带动了我国水利水电工程的发展,而机电设备作为水利水电工程的核心力量,对水利水电工程的发展有着非常重要的作用,因此相关的管理人员要格外重视机电设备的应用和质量,这样才能让我国水利水电工程稳定发展。
在水利工程当中,泵站建设是比较核心的建设工作,可以给水利工程带来动力资源。泵站的运行对水利工程建设有决定性的影响,可以保障泵站运行的稳定和安全,可以提高水利工程的施工速度。本文主要根据水利工程中泵站的运行进行探究,并对于其安全问题提出相关的建议和措施,以供相关工作人员参考。
目的:分析罗哌卡因复合硬膜外不同剂量舒芬太尼对剖宫产产妇麻醉效果的影响。方法:回顾性选择58例剖宫产产妇作为研究对象,根据不同麻醉方法进行分组,将采用罗哌卡因复合2.5μg舒芬太尼硬膜外麻醉的产妇作为低剂量组(n=29),将采用罗哌卡因复合5.0μg舒芬太尼硬膜外麻醉的产妇作为高剂量组(n=29),比较两组镇痛维持时间、达到最高痛觉阻滞平面时间、总产程时间、产后24 h出血量、分娩结局。结果:高剂