论文部分内容阅读
强大的计算能力和海量的训练数据推动了基于机器学习的图像分类、语音识别、无人驾驶等高新技术的迅猛发展。随着机器学习模型的不断增大,日益复杂的计算任务对存储和计算能力的需求需要通过分布式机器学习系统来解决。大规模分布式机器学习普遍采用的数据并行的分布式策略会产生典型的多对一流量模式,快速增长的参数同步数据量规模和频率对网络提出了更高的带宽需求。网络通信成为了分布式系统机器学习应用完成速度的重要瓶颈。传统的拥塞控制策略没有考虑分布式机器学习应用的通信模式和流量分布特征,粗粒度的控制机制使网络不能灵活响应网络波动,导致网络出现拥塞,影响分布式机器学习的训练速度。本文根据当前拥塞控制策略的研究思路,从单路径传输和多路径传输两个方面详细分析了相关策略,并从这两种思路出发,针对基于单路径传输的流完成时间优化问题和基于多路径传输的Transmission Control Protocol(TCP)incast问题分别提出了相应的解决方案。为了解决当前方案控制粒度粗、对后续流量预测性差以及收敛速度慢的问题,论文设计了基于单路径传输的时延量化拥塞控制策略。通过量化数据包排队时延并添加流量变化趋势,该方案能够获取细粒度的链路状态信息。状态信息采用快速反馈机制生成自定义数据包发送回源端,减少了滞留时间。发送端根据反馈信息采用发送速率调整算法准确控制发送窗口。仿真结果表明,该方案在一定条件下可以有效提高20%的网络吞吐,降低50%的平均流完成时间,改善小流完成时间长尾问题。为了在保留多路径传输网络利用率优势的同时,解决多路径传输本身机制对TCP incast问题的影响,本文设计了基于多路径传输的子流自适应拥塞控制策略。通过细粒度的拥塞信息感知以及根据拥塞信息的子流数目自适应机制,该方案能够动态调整可用子流数目并根据子流路径拥塞程度选择轻拥塞路径进行传输。在不降低网络利用率的同时,该方案能够增强网络对TCP incast问题的容忍度。仿真结果表明,该方案可以有效解决多路径传输下的TCP incast问题,性能表现与基于单路径传输的拥塞控制策略相当。在一定条件下,该方案具有更高的网络利用率以及更低的队尾时延。