【摘 要】
:
近年来,受益于算法、硬件算力和数据集的高速发展,深度学习得到了广泛应用。但随着应用增多和数据量的增长,深度神经网络越来越复杂,参数规模从万级增加到亿级。单设备计算能力和存储能力有限,无法应对在大数据集上训练大模型。因此采用跨设备分布式并行技术将大模型切分为多个子模型,并将多个子模型分配到不同设备并行执行,已成为处理大模型的主流方法。现有的深度学习分布式并行策略主要基于专家经验设计,当模型、算法或集
论文部分内容阅读
近年来,受益于算法、硬件算力和数据集的高速发展,深度学习得到了广泛应用。但随着应用增多和数据量的增长,深度神经网络越来越复杂,参数规模从万级增加到亿级。单设备计算能力和存储能力有限,无法应对在大数据集上训练大模型。因此采用跨设备分布式并行技术将大模型切分为多个子模型,并将多个子模型分配到不同设备并行执行,已成为处理大模型的主流方法。现有的深度学习分布式并行策略主要基于专家经验设计,当模型、算法或集群环境发生变化时,需要强大的专业知识和昂贵的人力时间重新设计并行策略,大大增加了实际生产场景下的工作量。少部分研究者提出分布式并行策略自动搜索技术,主要包括机器学习和图算法两类。其中,基于机器学习的自动并行技术由于迭代学习的策略搜索方式导致耗费的计算资源和时间成本较高,并行训练所带来的性能优化收益甚至无法超过搜索并行策略所带来的时间损耗,普适性较差。而相较于基于机器学习的自动并行技术,基于图算法的自动并行技术能在常量级时间内搜索得到并行策略,可大幅降低策略搜索时长和计算资源消耗,因此本文着重研究基于图算法的自动并行技术。现有基于图算法的自动并行技术主要以训练时间或通信时间为评价模型指导分布式策略的设计与实现,性能评估指标单一,对并行策略执行性能评估有限;与此同时,分布式并行策略组合数随着算子数或模型层数增加呈指数级增长,导致现有算法搜索并行策略效率低下,策略搜索时间和并行策略性能仍存在较大的优化空间。针对上述问题,本文以有向无环图(Directed Acyclic Graph,DAG)调度为研究方向,分别从分布式训练性能量化建模、并行策略算法搜索优化和并行策略性能提升等方面展开深入研究。本文的研究内容概括如下:(1)针对性能评估指标单一问题,本文构建分布式性能评估模型。首先,对所要解决的问题进行数学建模,明确分布式并行训练优化目标;其次,分析深度学习模型组合结构性原理,研究并量化影响模型并行执行效率的关键因素;最后,构建性能评估模型,用以指导后续分布式并行策略的自动搜索和调优。(2)针对分布式并行策略搜索效率低的问题,提出基于DAG关键路径最优化调度的并行策略自动搜索算法MP-DPS(Device Placement and Scheduling based on Merge and Path Predict,MP-DPS)。该算法首先提取原始计算图和设备拓扑图的特征并构建图搜索空间;其次,通过异构算力感知的节点归并,基于算子对算力异构敏感度进行节点合并,减少搜索空间;最后,基于路径开销预测实现DAG关键路径最优化调度,以寻找最优并行策略。相比于同样基于图算法的FastT(FastTraining of Models,FastT),MP-DPS算法可大幅降低搜索开销,具有更好的分布式拓展性。(3)针对环境动态变化导致静态方法搜索最优分布式并行策略困难的问题,本文进一步提出基于DAG关键路径动态生成的并行策略自动搜索算法FD-DPS(Device Placement and Scheduling based on Fine-grained optimization and Dynamic critical path,FD-DPS)。该算法首先基于张量维度实现算子拆分,拓展优化空间;其次,提出关键路径动态生成方法,基于算子动态优先级确定关键节点从而动态生成关键路径,捕捉算子相对重要性的变化;最后,基于节点重要性实现关键路径最优化调度,从而进一步提升并行策略性能。相比MP-DPS,FDDPS耗费较久的搜索时长从而达到相对于MP-DPS算法更优的并行训练性能,具有更好的训练有效性。
其他文献
面对目前全球气温持续上升的现实背景,减少二氧化碳排放是当今世界的一个重要议题。自2007年以来,中国成为世界最大碳排放国,为积极承担节能减排、低碳发展的国际责任,中国政府结合自身发展情况也相继出台了众多政策。2009年,中国在哥本哈根气候大会上作出2020年碳强度较2005年下降40%-45%的承诺。随后于2014年,中国又进一步作出2030年碳强度较2005年下降60%-65%并于2030年前实
民为国基,谷为民命,粮食是人类最基本的生存保障和民生需求。新中国成立后,中国始终把解决人民吃饭问题作为国家长治久安的首要任务。目前我国已经实现了由“吃不饱”到“吃得饱”,并且“吃得好”的历史性转变。但目前我国粮食产量增加更多的是依靠农药、化肥、农用机械等现代农业生产要素投入,高投入、高产出的同时也带来了高排放,在一定程度上影响了农业生态系统平衡。《自然-食品》发布最新研究报告显示粮食系统温室气体排
近年来,随着5G移动网络、物联网、人工智能等技术的高速发展,数据呈现爆炸式地增长,催生出了越来越多的数据密集型应用,如视频流分析、增强现实等。大量的数据密集型应用具有计算需求大且实时性要求高的特点,对现有的云计算模式带来了新的挑战。然而通过将数据密集型应用部署到移动边缘计算环境下,可以降低数据密集型应用处理用户任务的响应时间,以满足任务低延时的需求。但是用户日益提高的服务质量要求与有限的边缘服务器
5G、智能手机和互联网技术的飞速发展使得网络视频平台成为青年获取消息的主要渠道之一。各种视频平台发布的内容也因此对青年的世界观、人生观、价值观有着重要的影响。作为网络视频平台之一的B站,其社交属性、个性化推荐等特点使其成为青年之间流行的热门视频平台。因此,如何利用B站进行主流思想的正能量传播,如何更好地发挥平台的积极作用从而科学地引导青年,顺理成章地成为思想政治教育工作者需要认真思考和慎重对待的重
单克隆抗体药物具有高特异性和低成本的优点,在药品研发领域有着广泛的应用,利用杂交瘤细胞可以大量的生产单克隆抗体。在杂交瘤生产流程中,必须对试管中的细胞进行定期筛选。传统的杂交瘤细胞筛选通过人工完成,存在着效率低下和容易发生主观性偏差等缺点。本文采用深度学习技术,提出了两种基于卷积神经网络的杂交瘤细胞图像分割算法,并且设计和完成了杂交瘤细胞图像自动分割系统,实现对细胞图像快速且精确的分割。通过大量的
近年来,借助深度学习算法对医学影像中的细胞及组织进行识别和诊断的分析技术,逐渐成为了医学影像诊断领域的热门研究方向。卷积神经网络(Convolutional Neural Network,CNN)作为一种高效的深度学习算法,广泛应用于医学影像诊断领域。但由于CNN模型在训练前需要初始化参数,因此当初始参数选择不恰当时会带来各种问题。首先,对于CNN模型的初始权重,传统的方法是采用随机初始化,这样会
工业视觉是智能制造的重要支撑,尤其是在自动化生产线中,工业视觉具备客观性、精确性、灵活性等优势。在自动化生产线中,与运动控制环节相比,输入的图像流会对视觉算法的时间造成波动,从而无法精准控制生产节拍。例如在印制电路板生产线上,由于裸板缺陷检测的时间难以掌控,只能给每一块裸板预留相同的上限时间,降低了生产线的时间效率。针对这一问题,本文围绕自动光学检测平台展开研究,以自动光学检测平台大量的视觉代码块
视觉系统是一个复杂的信息处理系统,它的资源十分有限,这就决定了视觉注意在同一时刻只能选择性地加工外界环境中很少一部分的信息,因此需要一种有效的机制从信息冗余的外界环境中精准地找到目标刺激,以提高认知加工的效率。其中,视觉注意的控制机制在这一过程中发挥了不可忽视的作用。本研究想要探索的是视觉工作记忆对视觉注意的引导作用,这是研究者们近期提出的一种自上而下的视觉注意控制机制。有许多研究者认为视觉注意可
职业生涯规划包括了对职业的定位,人生目标的设定以及如何实现自己目标的道路,是对人生道路进行整体性规划的过程。职业定位作为职业生涯规划的起点,对职业生涯规划起到至关重要的作用。然而,不知道自己适合什么职业是大多数人所面临的一个问题。目前现有的职业推荐方法,大多存在大众化、片面化的问题,并没有结合用户本身特点,来进行合理有效的个性化推荐。因此,从分析用户特征开始,提出了一种融合多种测评结果的多模型用户
时序行为检测旨在检测视频中的行为,不仅需要精确定位行为的起止点,还要为其预测正确的类别。时序行为检测任务是高层自动视频内容理解任务的基础,具有重要的学术研究意义以及应用价值。目前,时序行为检测任务的难点主要体现在三个方面:(1)大部分研究工作采用基于锚框的检测方法,通过预定义锚框覆盖可能包含行为的区域,存在计算量大且不灵活的问题;(2)时序信息在视频行为检测中非常重要,但传统的卷积形式并不能充分捕