负载特征驱动的Spark内存配置关键技术研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:qisucha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式内存计算平台Spark是大数据处理的最新技术进展。内存资源是Spark平台的核心资源,合理的内存配置能够为Spark负载的运行提供性能保障。Spark内存配置是指依据负载特征和平台特性为Spark负载进行内存资源的分配管理。目前Spark内存配置是以用户为导向的静态配置,由于用户缺乏对Spark平台机理的了解,通常为负载过量配置内存资源,该方法会导致内存资源使用率低下,在多负载场景下降低了负载执行效率。针对当前Spark内存配置方法的不足,本文提出了负载特征驱动的Spark内存配置方法,在Spark负载内存访问特征量化分析的基础上分类构建负载的内存需求预测模型,实现Spark内存精准配置。(1)提出负载特征驱动的Spark内存配置方法框架。本文通过量化实验验证Spark负载具有可分类性。在该结论的基础上,所提出的方法框架包含两个主要阶段,离线阶段和在线阶段。在离线阶段,首先将Spark负载从内存需求的维度进行分类,并对每个负载类别分别构建Spark负载内存需求模型。在线阶段则使用小的测试数据集进行负载类别匹配,根据该类别中的内存需求预测模型对该负载进行内存需求评估。(2)提出基于经验的Spark内存配置方法。在该方法中,提出以“数据膨胀率”指标作为Spark负载内存访问特征分类指标,并使用该特征指标及其变化率进行Spark负载分类;在分类的基础上,依据Spark基准测试负载的内存需求经验计算公式,构建内存需求预测模型。(3)提出了基于机器学习的内存配置方法。该方法首先通过对Spark软硬件系统栈指标的筛选和精简,选取Spark负载内存访问特征指标;依据上述特征指标采用K-Medoid算法对典型Spark负载进行分类;针对每一类负载,使用逐步回归法自动筛选出对该类负载内存需求有显著影响的平台配置参数,并使用基于支持向量机(SVM)的回归算法分别为每一类负载构建Spark负载内存需求预测模型。(4)最后我们使用典型Spark负载集对两种内存配置方法进行了性能评估。实验结果表明,与系统缺省的静态配置相比,两类方法均获得了较好的负载执行效率和内存资源利用率。两类方法中,基于机器学习的内存配置方法具有更准确的内存需求预测和更高的内存利用率。
其他文献
随着信息科技的迅猛发展,云制造这种新型的制造模式悄然产生。它是在综合国内制造产业的发展水平和工业生产、工业技术飞速发展以及在中国制造业信息化等发展背景的前提下提
船级社自设立至今已200多年,以自身的专业技术和知识为船东提供船舶检测和维护服务,在保证船舶航行安全中扮演着不可或缺的角色。从诉讼实际情况看,请求法院判决船级社承担损
首先分析了国外轴向柱塞泵在线监测系统功能和特点,然后对轴向柱塞泵故障诊断与寿命预测技术的研制流程进行全面分析,主要包括故障模式与机理分析、监测参数选取方法、故障模
针对PageRank算法仅依靠网页之间的链接结构关系排序,造成平均分配网页权值、主题漂移、偏重旧网页等问题,本文提出一种基于多特征因子融合的网页排序算法。该算法通过增加权
本文使用A股上市公司2006-2015年的数据,实证分析了企业核心业务、机会性业务与企业创新投入的关系,得出以下结论:核心业务利润贡献率与企业的创新投入呈显著的倒U型关系,当
在PaaS云平台数据中心,用户向云平台提交的应用程序需要由虚拟机(VM)来运行,以满足租户应用(Guest Application)之间的隔离需求。虚拟机、或称为客户机(Guest),由物理机(Phys
随着无线通信网络的发展,无线体域网技术得到了社会各个领域的关注。无线体域网可以被用于很多领域,尤其是医疗领域。无线体域网包括三部分,人体附近的传感器节点,中央控制系
场景识别是通过图像处理技术与模式识别技术来辨认出图像所属的场景。场景识别是计算机视觉和机器人领域中重要的研究之一,促进了图像检索技术和智能机器人导航等应用的发展
研究目的对2019年我国湖北省腮腺炎病毒(Mumps virus,MuV)流行株进行基因特征分析,研究探讨其分子变异变迁规律,为我国流行性腮腺炎的监测与防控以及疫苗研制提供基线数据。研究方法使用实时荧光定量逆转录聚合酶链式反应(Real-time reverse transcription-polymerase chain reaction,Real-time RT-PCR)对2019年湖北省送检
微存量传感检测技术是利用传感元件对化学微量试剂存量进行精确实时检测与监控的技术。目前对于化学试剂微存量检测通常利用电学元件,但电学电路较为复杂以及抗电磁干扰能力