Spark性能建模系统的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:bigjohn6120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算、移动计算等技术的快速发展和广泛应用,互联网所产生的数据量正在以指数级的速度增长。面对海量数据的处理和挖掘需求,业界逐渐发展出了众多大数据处理技术及相关开发框架。为了应对不同的使用场景,Spark大数据处理框架提供了上百个配置项。由于Spark的配置参数对应用的运行性能有着显著的影响,因此对Spark配置进行调优是一项十分必要的工作。为了提高Spark框架的运行效率,国内外研究者在多个方向做出了努力。其中自动化配置参数优化方法的研究尚处于探索阶段。现有的自动化优化方法对成本的考虑较为不足,难以应用于实际工作场景,而且其优化效果也有着较大的提升空间。针对上述问题,本文给出一种基于机器学习的性能建模的方法,预测目标应用在不同的配置参数下的执行时间,并在此基础上实现配置参数的优化任务。该方法的主要思路为:建立应用与模型数据库,保存多种应用信息及其机器学习模型;对于需要预测在各种配置下执行时间的目标应用,首先从数据库中查找并提取关键信息,用以指导目标应用样本数据的获取;随后基于机器学习算法对样本数据进行训练以构建目标应用的性能预测模型。本文的主要工作包括:(1)应用执行状态监控。将目标应用在特定运行环境执行,监控运行时各个时间节点的资源消耗、数据流向、Shuffle过程等指标,获取详细的记录报告,结合应用特征的表示方法,提取出代表应用的特征变量。(2)模型知识提取方法。基于统计学习方法建立的模型中描述了各个特征值与结果值的相关关系,即各个特征及其组合对最终运行时间的影响幅度,可以将这些信息提取出用以指导后续的样本采集过程。(3)设计并实现了性能建模与优化系统。实现了从数据采集与提取、特征的选择和预处理、模型的训练和验证以及持久化的全过程。基于构建的性能预测模型并使用参数搜索算法,经过多次迭代调用预测模型计算出目标应用程序的推荐配置参数值。本文通过多节点集群上的模拟实验进行了测试,对性能建模方案与配置优化方法进行了验证。实验结果表明,本文的方案实现了自动化配置调整与优化的功能,在不需要大量人力成本的前提下提高了系统资源的利用率,完成了Spark配置优化任务的需求。通过实验验证,相较于传统的几种优化方法,本文提出的性能建模与配置优化方法有10%到25%的性能提升。
其他文献
为了提高车载系统的电磁兼容性,在设计阶段就需对其进行合理的电磁兼容设计,并且电磁兼容工作要贯穿该项目的全生命周期。因此需要采用恰当的方法对其实际的电磁兼容性进行系统
我科1996-2004年收治了老年性喉癌患者75例,其中行喉功能保留术者45例,术后效果较佳,现报告如下。1资料与方法1.1临床资料75例老年性喉癌患者中,45例行喉功能保留术,其余30例
针对海外EPC总承包工程的风险特征,从研究招标文件、成本核算、合同文本审核、人才培养等方面,阐述了国际EPC总承包工程在前期开发阶段规避风险的措施,有利于促进海外工程建
吸入性肺炎是危及老年人生命的常见疾病,多数老年患者同时患有脑血管疾病、鼻咽癌等疾病,机体免疫能力低下,病死率高达40%-60%[1]。所以对老年人吸入性肺炎的正确诊断、及时
在习作评价时,教师应是倾听者去聆听学生的心声,应是欣赏者去赏析习作的精妙,应是讨论者与学生展开热烈的交流,充分尊重和理解学生丰富的内心世界和独特的情感表达方式。从而
一、传统的"大同"社会理想使中国人易于接受共产主义理想几千年来,中国文化孕育了一个理想社会的形态,即"大同"社会,它不仅是社会理想,也构成了中国文化乌托邦精神的支柱.
房屋安全管理系统是基于互联网平台,对既有建筑进行有效的管理,可以大大提高在房屋安全管理、排查中的工作效率,文章介绍了在镇江市房屋安全信息管理系统中,结合BIM技术及全
依照精确、可靠、稳定的原则,设计点滴智能控制系统.利用步进电机的可控性、高精度性和红外光发射接收检测传感元件3DU的高灵敏性,以及89C51单片机的可编程性进行综合设计.实
单元幕墙已成为应用日渐广泛的新型建筑形式.为了探讨使单元幕墙的建筑效果完美实现的方法,结合某研发大厦工程中单元玻璃幕墙的实际施工与管理,从设计和施工管理细节入手,分析控
伴随着日益能量需求增长和化石能源枯竭,开发清洁的能量存储体系至关重要。目前,商业化二次锂离子电池在能量密度、功率密度、循环寿命等需求越来越高。加之有限的锂资源,传