论文部分内容阅读
为了追求更高的精度,当前神经网络的研究朝着模型更复杂、训练数据规模更大的方向发展,这导致模型的训练部署更困难、训练时间急剧增长。怎样将大型神经网络模型在多GPU集群环境下进行合理的部署,达到减少模型训练时间的任务极具挑战。当前研究主要基于数据并行方法来加速小模型的训练过程,或采用与已有大数据系统相结合的方案来实现模型的自动化训练部署,但它们均无法解决大模型训练面临的挑战;另外,针对终端设备智能化的趋势,当前主要采用由强大资源做后盾的云端部署方案。该方案可以达到很高的精度,却不能满足对延迟敏感的应用需求;最新趋势是采用直接在终端设备上部署小型化模型的离线方案,达到满足实时性和无带宽的场景需求,然而却以牺牲结果精度为代价。怎样实现低成本、低延迟、低带宽的推理模型的部署是终端设备智能化的主要挑战。 本文针对以上两个问题分别提出了相关方法。对于超大模型的训练部署,本文提出的NeuroPlacerOnCloud方法实现了基于模型并行的强化学习部署方案。通过精准预测大模型的训练时间、合理聚合模型的计算节点op并最终通过强化学习方法实现对模型的划分部署,不仅极大的加速了大模型的划分过程,而且使得该模型的训练速度提高了20%左右。本文的NeuroPlacerOnMobile方案在充分评估了终端设备的硬件性能后,选择最优的个性化部署方案,从而实现终端设备的模型部署目标。