论文部分内容阅读
大量的机器学习(Machine Learning:ML)任务使得计算规模急剧扩张。因此,提高集群资源的利用率是当前网络面临的一个难题。本文在参数服务器的框架之下,首先提出了基于深度强化学习(Deep Reinforcement Learning:DRL)的资源分配算法,缓解了异常任务问题。接着,提出了基于拓扑感知的调度算法来使GPU之间高效通信。本文的主要贡献如下:(1)针对异常任务引起的集群利用率低问题,本文提出了基于参数服务器的异常任务处理架构。具体的,首先在参数服务器架构中考虑集群的高度动态的状态来解决异常任务。接着,基于DRL提出一种灵活的帮助控制同步机制来确定每个节点的帮助节点。最后,改进的异步优势动作评价算法(Asynchronous Advantage Actor Critic:A3C)将分布式的智能体布置在每个工作节点,从而在离散的状态空间里采取合适的行为来平衡各个节点的开销。(2)针对GPU之间的通信带宽不均导致的集群利用率低问题,本文提出了一种基于工作节点数量和GPU布局拓扑的资源-时间模型来提高通信效率。根据该模型,提出了一种针对参数服务器拓扑问题的拓扑感知参数服务器(Topology-Aware Parameter Server:TOPO-PS)算法来实现基于图映射算法的资源放置策略。