论文部分内容阅读
分布式计算是处理具有海量数据与超大规模计算问题的重要解决方案,随着分布式计算系统规模的逐渐增大,将会不可避免的遇到掉队问题与通信负载过大的问题。本文从编码的角度切入分布式计算,研究其中的掉队问题以及通信优化问题,并为相关的具体应用提供解决方案。
首先,论文对分布式计算中的掉队问题,通信优化问题以及相关应用采用的主要编码方法进行介绍。然后具体针对分布式计算中的掉队问题,我们以分布式矩阵向量相乘,分布式矩阵乘法为背景详细描述各种基于编码的分布式计算方法。紧接着对于通信优化问题,我们分别以MapReduce与分布式机器学习中样本的置乱重排为研究对象介绍对应的编码解决方法。最后以分布式矩阵向量相乘为背景探讨兼顾掉队问题与通信优化问题的编码计算方法。
针对分布式矩阵向量相乘计算中的掉队问题,论文介绍了最常见的MDS编码以及多种喷泉码技术。在基于MDS编码的计算方案,我们详细描述了基于Walsh变换的快速译码方案。对应喷泉码的编码计算中,论文主要研究了LT编码与Raptor编码方案,并讨论了对应的BP译码方案与失活译码方案。此外,在LT码的基础上,我们提出了带反馈机制的LT码编码计算方案,通过反馈机制极大的降低了分布式计算方案的编译码开销。对于上述编码方案,我们从理论上推导出了各种分布式编码计算方案Map阶段的延时,并通过仿真分析比较了各方案的计算延时与服务器的存储开销。
论文进一步讨论了分布式矩阵相乘计算中的掉队问题,文中介绍了两种矩阵切割方式以及相关的五种编码计算方案。论文给出了恢复限的概念,并作为衡量编码方案优劣的主要指标。当矩阵按行列方式进行切割时(自然切割),可以采用基于MDS码的乘积码方案,多项式码方案以及MatDot码方案。论文对这三种方案进行了详细的介绍并给出了对应的恢复限。当矩阵按矩阵块的方式分割时,我们主要研究基于PolyDot码与Reduced Recovery码的编码方案。PolyDot码整合了多项式码与MatDot码的构造思路,并且可以通过调节参数来调整编码方案的恢复限与通信负载。当矩阵元素为非负整数时,Reduced Recovery码可以借助元素的整数特征,进一步降低编码计算方案的恢复限。之后我们以分布式DNN网络的训练为背景介绍了PolyDot编码方案在具体算法中的应用。针对参数矩阵的编码计算,我们提出了针对二元多项式的插值译码算法,从而统一了DNN网络前后向传播中的编码方法并降低了编码开销。
论文最后研究了分布式系统中的通信优化问题,我们分别从MapReduce与分布式机器学习中的样本置乱重排两个场景出发介绍了对应的编码计算方法,并给出各编码方法的通信负载。对于MapReduce场景下的编码计算,我们为了尽可能少的生成编码消息,提出了相应的编码策略。最后在分布式矩阵向量相乘的背景下,我们探讨了兼顾通信优化与掉队问题的编码体系,体系以MDS码与重复码为基础,并通过调节参数获得了通信负载与Map阶段的时延之间的折中。
首先,论文对分布式计算中的掉队问题,通信优化问题以及相关应用采用的主要编码方法进行介绍。然后具体针对分布式计算中的掉队问题,我们以分布式矩阵向量相乘,分布式矩阵乘法为背景详细描述各种基于编码的分布式计算方法。紧接着对于通信优化问题,我们分别以MapReduce与分布式机器学习中样本的置乱重排为研究对象介绍对应的编码解决方法。最后以分布式矩阵向量相乘为背景探讨兼顾掉队问题与通信优化问题的编码计算方法。
针对分布式矩阵向量相乘计算中的掉队问题,论文介绍了最常见的MDS编码以及多种喷泉码技术。在基于MDS编码的计算方案,我们详细描述了基于Walsh变换的快速译码方案。对应喷泉码的编码计算中,论文主要研究了LT编码与Raptor编码方案,并讨论了对应的BP译码方案与失活译码方案。此外,在LT码的基础上,我们提出了带反馈机制的LT码编码计算方案,通过反馈机制极大的降低了分布式计算方案的编译码开销。对于上述编码方案,我们从理论上推导出了各种分布式编码计算方案Map阶段的延时,并通过仿真分析比较了各方案的计算延时与服务器的存储开销。
论文进一步讨论了分布式矩阵相乘计算中的掉队问题,文中介绍了两种矩阵切割方式以及相关的五种编码计算方案。论文给出了恢复限的概念,并作为衡量编码方案优劣的主要指标。当矩阵按行列方式进行切割时(自然切割),可以采用基于MDS码的乘积码方案,多项式码方案以及MatDot码方案。论文对这三种方案进行了详细的介绍并给出了对应的恢复限。当矩阵按矩阵块的方式分割时,我们主要研究基于PolyDot码与Reduced Recovery码的编码方案。PolyDot码整合了多项式码与MatDot码的构造思路,并且可以通过调节参数来调整编码方案的恢复限与通信负载。当矩阵元素为非负整数时,Reduced Recovery码可以借助元素的整数特征,进一步降低编码计算方案的恢复限。之后我们以分布式DNN网络的训练为背景介绍了PolyDot编码方案在具体算法中的应用。针对参数矩阵的编码计算,我们提出了针对二元多项式的插值译码算法,从而统一了DNN网络前后向传播中的编码方法并降低了编码开销。
论文最后研究了分布式系统中的通信优化问题,我们分别从MapReduce与分布式机器学习中的样本置乱重排两个场景出发介绍了对应的编码计算方法,并给出各编码方法的通信负载。对于MapReduce场景下的编码计算,我们为了尽可能少的生成编码消息,提出了相应的编码策略。最后在分布式矩阵向量相乘的背景下,我们探讨了兼顾通信优化与掉队问题的编码体系,体系以MDS码与重复码为基础,并通过调节参数获得了通信负载与Map阶段的时延之间的折中。