【摘 要】
:
分布式深度学习是实现大规模深度训练的有效途径,分布式深度学习系统是支撑分布式深度学习计算的基础设施。如何在受限时间内满足深度学习模型的训练精度需求并最小化资源成本是分布式深度学习系统面临的一大挑战。资源和批尺寸超参配置是优化模型训练计算效率和精度效率的主要方法。既有分布式深度学习系统配置优化工作从资源和批尺寸两个方面单独配置,然而通过分析实验结果可知,资源和批尺寸配置对分布式深度学习训练的计算效率
论文部分内容阅读
分布式深度学习是实现大规模深度训练的有效途径,分布式深度学习系统是支撑分布式深度学习计算的基础设施。如何在受限时间内满足深度学习模型的训练精度需求并最小化资源成本是分布式深度学习系统面临的一大挑战。资源和批尺寸超参配置是优化模型训练计算效率和精度效率的主要方法。既有分布式深度学习系统配置优化工作从资源和批尺寸两个方面单独配置,然而通过分析实验结果可知,资源和批尺寸配置对分布式深度学习训练的计算效率和精度效率均有影响,且存在较强的相关性,独立配置无法实现在限定时间内达到目标精度并且最小化成本开销的目标。针对这一问题,本文提出资源-批尺寸协同配置方法。该方法对分布式深度学习训练的单轮训练时间以及精度构建了性能预测模型,协同使用上述两种模型通过启发式协同配置优化算法求解出最优配置。本文的主要贡献总结如下:(1)以典型分布式深度学习系统Tensor Flow为例,验证了资源配置比例与计算效率以及资源-批尺寸配置与训练精度之间的关系,通过观测实验提取了影响计算效率和精度效率的主要因素,并初步分析了二者之间的数学关系。(2)基于分布式深度学习计算模型提出单轮训练时间预测模型,使用机器学习方法构建精度预测模型。其中,单轮训练时间预测模型可对ASP和BSP参数更新模式下的训练时间预测建模,得到不同资源和批尺寸配置下的单轮训练时间预测值;精度预测模型采用SVR模型构建,以资源配置、批尺寸配置、完整数据集训练次数为特征建立,对不同配置组合下的精度进行预测。(3)提出一种启发式协同配置优化求解算法,在经典禁忌搜索算法基础上,协同使用构建好的预测模型,首先将不满足精度和训练时间要求的配置解删除,达到约简搜索空间的作用;然后选择计算效率和精度效率高的配置解作为初始解;最后启发式地求解最优配置解。(4)采用经典深度学习数据集,验证性能模型预测精度。结果表明,与实测单轮训练时间相比,预测误差小于10%,与实测精度相比,预测误差小于2%;在资源-批尺寸协同配置方法评估实验中,与三种独立配置相比,协同配置最大提高精度4.1%,最大缩短训练时间115.9%,最大节省资源成本45.97%。
其他文献
轮对是地铁列车与钢轨耦合的关键部件,其服役状态对列车的安全运营产生重要影响。当轮对尺寸参数超限后,会造成列车运行不平稳甚至脱轨等安全事故,因此对地铁轮对尺寸的准确测量和及时检修对列车的安全运行具有重要意义。本文在结合国内外研究现状的基础上,设计了基于多线激光的地铁轮对尺寸参数检测方法,实现了轮对尺寸参数的精确检测。首先对基于多线激光的轮对尺寸检测系统进行了总体设计,同时根据传感器三角测量法设计检测
公共交通工具作为广告的传播媒介能使广告信息的到达率和暴露频次达到较高的水准。针对传统交通广告存在的诸如人数难以精确统计、广告无法智能推送等弊端,本文根据网约车广告传媒公司的实际需求设计了可智能推荐的广告管理系统。该系统以网约车上的设备为广告载体,解决了传统交通广告存在的诸多问题,同时为公司建立了完整的现代化信息管理机制,全面提高了公司的整体运作效率。首先,本文对车载广告系统的业务需求进行了详细介绍
近年来,随着科技发展,作战武器也日益多元化,各式新型武器在战争中崭露头角。无人机蜂群这类目标的出现对传统的舰载武器系统提出挑战,由于传统武器一般采用点杀伤的方式,对这类体积小、灵活性高且数量多的目标无法高效打击。高功率微波武器的出现解决了这一难题,以其打击范围广、效费比高和光速打击目标等优点赢得了各国的青睐。将高功率微波武器作为舰载武器应用于舰载武器系统,也给舰载武器系统火力兼容提出新的问题,其与
随着城市规模的扩大,城市轨道交通服务范围逐渐由中心城区向外扩散。一方面,乘客的出行方向呈现分散化趋势,Y型线路的城市轨道交通随之产生,研究Y型线路的交路计划,能更好地满足主、支线乘客出行需求,提升企业运能和客流需求的匹配度,降低乘客出行成本,节约企业运营成本;一方面,乘客的出行距离越来越长,传统的列车站站停运营模式已无法满足乘客快速、直达的出行需求,快慢车停站方案能更好地吻合客流需求,降低乘客出行
机载光电稳定平台作为一种可搭载光电探测设备的装置,具备敌情侦察、目标定位与跟踪等功能,可实现平台和外部扰动的隔离,保证探测设备的成像精度,具有重要研究意义与应用价值。本文针对国内小型无人飞行器的光电载荷需求,研究并设计了一款机载光电稳定平台,实现对载体扰动的隔离和对目标的稳定跟踪。本文主要完成的内容如下:首先,根据稳定平台的功能需求与性能指标设计了伺服系统总体方案,对主要元器件完成了选型及建模,并
一直以来,各类安全生产事故影响着经济和社会的稳定发展。随着社会城镇化和工业化的提升,事故以更加危险和复杂的形式危害人民和国家的生命财产安全,“8.12天津滨海新区爆炸”、“3.30木里县森林火灾”、“8.29山西农村饭店重大坍塌”等一系列事故历历在目,以检查人员和专家人为判断为主的安全检查和预警机制已不足以应对日益复杂的生产场所的需要。为此,亟需开展针对以检查、执法、统计为主要目标的应急管理系统的
自以比特币为代表的区块链1.0诞生以来,区块链技术获得了广泛的关注。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式,它可以在互不信任的环境下实现去信任中介的可信交易。与传统数据库技术相比,区块链技术具有防伪造、匿名化、不可篡改以及可溯源等特点,被誉为一种将引发社会变革的新型技术。由于区块链是去中心化结构,缺少可信任机构的监管;并且由于其匿名化的特点,无法获知交易者
高效低排放柴油机均采用高压共轨燃油喷射系统。该系统油轨内高压燃油压力的稳定性是保证多缸喷射一致性及单缸喷油稳定性的前提,因此高压共轨系统非常重视高压油轨燃油压力波动特征,有必要对共轨系统的油轨内压力波动形成原因、传播过程及规律进行详细研究。目前很多研究主要集中在喷油器和油轨之间的高压油管内压力波动,而对于油轨内的压力波动过程及规律研究甚少,本论文以油轨内高压燃油压力波动特征为研究对象,利用仿真计算
伴随我国工业与制造业的发展和进步,我国对公路交通运量的需求逐渐增加。为了保障自身的经济效益,很多运输厂家超载运输,这种违法现象引起了交通管理部门的重视。为了保障公路的安全,维护正常的通行秩序,车辆动态称重技术应运而生。当前,车辆动态称重技术已经发展了数十年,水平已经相当成熟,但其在精度与置信度方面仍然有一定的进步空间。基于以上情况,本文将提升车辆动态称重系统的精确度与置信度作为目的,从车辆动态称重
视频目标跟踪技术是计算机视觉领域一个长期存在的研究方向。随着社会发展和视频制作技术的普及,对海量视频数据进行自动化内容分析的需求日益增长。视频目标跟踪技术是通过视频中某一给定目标实例,利用计算机自动提取、处理和分析视频后续内容,获取该目标实例在视频中的运动轨迹和外观变化的视频内容分析方法,可以为视频语义内容自动化理解和处理提供较为可靠和准确的数据支撑。视频目标跟踪技术在自动驾驶、人机交互和军事目标