论文部分内容阅读
随着运营商智慧AI应用所处理的数据和深度学习模型的规模变得日益庞大,需要反复的迭代和优化过程,人工智能的分布式训练变得越来越重要。文中对分布式训练的关键要素和方法进行研究,如模型并行、数据并行(同步更新、异步更新)、通信网络设计等方面。最后对山东移动在AI架构设计和提高AI模型的分布式训练效率的实践和经验进行总结。