面向分布式机器学习系统的负载均衡策略研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:tanzhiming1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,可用数据的规模性和复杂性急剧增长,使用单节点进行机器学习训练存在着内存限制和训练时间过长的问题。为了满足大规模机器学习算法的需求,分布式机器学习系统已经成为训练机器学习模型的主流。本文主要围绕如何加快分布式机器学习模型训练的整体性能展开研究。传统的分布式系统通常采用批量同步并行(Bulk Synchronous Parallel,BSP)模型来进行分布式模型训练。在BSP模型中,计算节点存在大量同步操作,从而导致整体训练时间过长。针对BSP模型中存在的问题,异步并行执行(Asynchronous Parallel Execution,ASP)模型和延迟同步并行(Stale Synchronous Parallel,SSP)模型均利用迭代-收敛算法的容错性进行了相应的改进,从而有效地加快了模型训练的速度,但是它们依旧存在以下问题:1)ASP模型过度利用迭代-收敛算法的容错性,会造成算法陷入局部最优解。它不能保证算法最终收敛于最优解,也不能保证其准确率。2)SSP模型需要事先设置阈值用于控制计算节点使用局部模型参数进行训练的次数。因此,SSP模型平衡集群负载的能力是固定不变的,它无法良好地适应真实生产环境下集群节点性能的动态变化。针对上述问题,本文首先创新性地提出了两种面向分布式机器学习系统的负载均衡策略——工作量自动调优(Automatic Tune,AutoT)策略和工作量自适应快速重分配(Adaptive Fast Reassignment,AdaptFR)策略;然后基于AdaptFR策略提出了一种新的并行计算模型——自适应动态同步并行(Adaptive-Dynamic Synchronous Parallel,A-DSP)模型;最后基于Caffe实现了支持A-DSP模型的分布式机器学习系统SLIME。本文的主要研究工作包括以下几个方面:1)本文深入分析了不同并行计算模型的优缺点,从工作量重分配的角度出发提出了一种负载均衡策略——AutoT策略。该策略首先使用小规模训练集对模型进行预训练,通过自动调优获得各计算节点的最优工作量比例;然后将获得的工作量比例应用到分布式模型训练中,使各计算节点能够充分利用其计算资源,从而加快了模型的训练速度。本文通过对工作量重分配方案进行理论分析,证明了该策略的合理性与有效性。2)本文在AutoT策略的基础上进行优化,提出了AdaptFR策略。该策略首先通过性能监控方法收集各计算节点的性能指标数据;然后通过分析获得各节点下一次迭代训练的工作量;最后将计算得到的工作量分发给对应计算节点,既充分利用了计算节点的计算能力,又很好地适应了真实生产环境下计算节点性能的动态变化。3)本文通过集成动态同步并行(Dynamic Synchronous Parallel Model,DSP)模型和AdaptFR策略提出了一种新的并行计算模型——A-DSP模型。为了验证A-DSP模型的有效性,本文利用参数服务器系统的思想提出了支持A-DSP模型的分布式机器学习系统SLIME。最后在SLIME上对AutoT策略和AdaptFR策略进行了实验,结果证明上述两种负载均衡策略能够有效地平衡集群负载,提高集群节点的利用率,在确保一定准确率的前提下,提高分布式机器学习模型训练的速度。
其他文献
锂金属负极由于具有超高的理论比容量(3860 m Ah g-1)、低密度(0.59 g cm-3)和最低的氧化还原电位(-3.04 V相对于标准氢电极)而被视为下一代充电电池的理想储能材料。不幸的是,在充电/放电过程中无法控制的锂枝晶生长,造成了极低的库仑效率、电解液耗尽和体积膨胀等一系列问题,严重制约了锂金属负极的商业化生产。为了抑制锂枝晶生长,本文通过在锂片表面覆盖一层亲锂材料,制备了循环性能
随着通讯工具的发展,手机短信以其价格低廉、收发便捷、移动性好的特点受到了人们的欢迎。但在为人们带来极大便利的同时,随之而来的诸多垃圾短信问题日益严峻。广告信息、欺
纳米材料由于不同于大块固体材料特殊的物理性质,引起了人们广泛的关注,目前,纳米材料已广泛应用到生活中的各个领域,纳米材料方便人们生活的同时,挖掘其潜在应用也就更加迫切,伴随微电子技术的不断发展,所带给人们的变化是日新月异的,在硅材料制造的电子器件发展受到限制的背景下,寻求能代替硅发展的更是迫在眉睫,2004年带有众多优良物理性质的二维纳米材料石墨烯映入人们的眼帘,石墨烯的不足之处在于它本身缺乏带隙
党的十九大报告明确指出,要着力解决突出环境问题、加快水污染防治,加强畜禽养殖水污染防治已成为推动“绿水青山”生态文明建设的重要任务。当前农业面污染形势十分严峻,畜禽养殖业是农业面污染的最大来源,畜禽养殖COD排放量约占农业COD排放总量的90%,给人类的生产和生活用水造成了巨大的威胁。随着我国畜禽养殖业规模化、集约化发展,畜禽粪便排放集中度增加,但粪便资源综合利用率较低,对水环境的污染非常严重,有
自1999年我国引进并建成第一套30kt/a丁基橡胶生产装置以来,丁基装置已经亦有20余年的生产经验,但是我国对丁基橡胶制造工艺掌握依然不够完全,反应机理及装置控制缺乏理论支撑,主要依靠操作人员及管理人员操作经验进行生产,装置风险评估工作也主要依靠管理人员管理经验。系统性、科学性的对丁基装置进行风险评估分析的研究与实施一直处于空白状态。随着当前行业人才流动频繁,科学有效的让每位员工,尤其是新晋管理
故障诊断系统是复杂武器装备重要的组成部分,随着现代复杂武器装备电子技术发展的不断投入,集成的电子控制单元在复杂武器装备中的使用越来越多,大型武器装备的控制系统也变得更加复杂。某型自行火炮的发展也越发趋于模块化、智能化和现代化。随着大型武器装备的电子零部件不断增多,故障发生的概率也越来越大,并且其故障会并发和传播,一旦该系统发生故障,将会使武器装备的作战能力大打折扣。因此,开展对自行火炮实时故障诊断
随着日趋激烈的国际竞争,国家发展经济要依靠创新,创新已成为我国各部门的关注焦点。目前科技创新发展缓慢,加之科技创新成果本身具有偶然性和“准公共物品”特性,因此企业对
助人课题在近些年来一直是社会心理学研究的热点,在以往的研究当中,助人意愿的影响因素被总结成个人因素和环境因素,其中,社会排斥起到举足轻重的作用。社会排斥对助人意愿的影响,目前的研究结果并不一致,甚至相互矛盾。本文为了找出其中的影响机制,尝试找到第三个变量探求其内在关系。已有研究表明,解释水平对社会排斥产生的消极作用具有缓和的作用,因此我们有理由认为,社会排斥对助人意愿产生负面的影响,解释水平在其影
在高新技术产业中,创新是企业保持竞争优势的驱动力,面对创新技术日趋复杂化,产品的生命周期不断变短,使得创新的作用越来越显著。但是不同的创新类型带来的竞争优势以及对促进企业绩效的效果不尽相同。在竞争的压力下企业如何选择创新方式,是保持企业能否持续发展的重要因素。基于此,本文从动态竞争视角研究动态竞争行为对不同创新形式的影响效果,同时由于创新形式的不同,可能会导致企业核心竞争力的不同,从这个角度来探究
资料显示儿童血液病是导致15岁以下儿童死亡原因的第二位,已成为危害儿童健康的重大疾病之一。血液病由于治疗周期长、治疗费用庞大并且需要反复入院治疗,给患病儿童家庭带来