论文部分内容阅读
高斯图模型是一种基于高斯分布假设的无向图模型。图中节点表示变量,节点之间的边界表示变量之间的依赖关系。高维和复杂结构数据下的图模型学习是当前图模型研究的热点和难点问题,具有很高的研究和应用价值,广泛应用于统计机器学习、数据挖掘、计算机视觉和生物信息等领域。随着大数据时代的来临,数据收集和挖掘的能力不断提升,研究者可以获得的数据量急剧增加。传统的图模型结构估计算法是基于独立计算系统设计的,现有设备的条件,无法实现海量数据下的图模型结构估计。为解决上述问题,本文基于传统高斯图模型结构估计算法中具有代表性的两种算法,提出可并行的分布式算法,使现有设备可以进行更高维度和更复杂情况下的图模型结构估计。首先本文基于邻域选择的算法提出一种可并行的分布式算法(DCD-NS),该算法在保证求解精度和效率的前提下,可以使MPI集群中各个计算节点利用部分数据完成计算,并对结果进行汇总,得到完整的图模型结构估计。但该算法的底层求解过程不可并行,使得该并行分布式策略不具备通用性;为克服上述问题,本文提出一种可并行的分布式块坐标下降法(PDBCD),该算法适用于MapReduce的并行模式,通过给定的两种策略汇总各个计算节点的计算结果,可用于对一类优化问题的求解。本文对该算法的收敛性、求解效率以及求解精度进行了详细分析,证明了该算法的有效性;本文将上述并行分布式的优化思想与传统图模型估计算法中具有代表性的GLasso算法相结合,提出一种可并行的分布式GLasso算法(DBCD-GLasso),并在Spark框架下进行实现,Spark集群下的各个计算节点可利用部分数据完成图模型结构的估计。实验结果表明该算法适用于MapReduce并行框架下的计算集群,与此同时,在保证算法的求解精度和求解效率的前提下,该算法可以有效地减少单个计算节点在计算时的内存占用率。