基于分布式数据的高斯图模型结构并行估计

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:titanium2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高斯图模型是一种基于高斯分布假设的无向图模型。图中节点表示变量,节点之间的边界表示变量之间的依赖关系。高维和复杂结构数据下的图模型学习是当前图模型研究的热点和难点问题,具有很高的研究和应用价值,广泛应用于统计机器学习、数据挖掘、计算机视觉和生物信息等领域。随着大数据时代的来临,数据收集和挖掘的能力不断提升,研究者可以获得的数据量急剧增加。传统的图模型结构估计算法是基于独立计算系统设计的,现有设备的条件,无法实现海量数据下的图模型结构估计。为解决上述问题,本文基于传统高斯图模型结构估计算法中具有代表性的两种算法,提出可并行的分布式算法,使现有设备可以进行更高维度和更复杂情况下的图模型结构估计。首先本文基于邻域选择的算法提出一种可并行的分布式算法(DCD-NS),该算法在保证求解精度和效率的前提下,可以使MPI集群中各个计算节点利用部分数据完成计算,并对结果进行汇总,得到完整的图模型结构估计。但该算法的底层求解过程不可并行,使得该并行分布式策略不具备通用性;为克服上述问题,本文提出一种可并行的分布式块坐标下降法(PDBCD),该算法适用于MapReduce的并行模式,通过给定的两种策略汇总各个计算节点的计算结果,可用于对一类优化问题的求解。本文对该算法的收敛性、求解效率以及求解精度进行了详细分析,证明了该算法的有效性;本文将上述并行分布式的优化思想与传统图模型估计算法中具有代表性的GLasso算法相结合,提出一种可并行的分布式GLasso算法(DBCD-GLasso),并在Spark框架下进行实现,Spark集群下的各个计算节点可利用部分数据完成图模型结构的估计。实验结果表明该算法适用于MapReduce并行框架下的计算集群,与此同时,在保证算法的求解精度和求解效率的前提下,该算法可以有效地减少单个计算节点在计算时的内存占用率。
其他文献
情感是动画影片中不可或缺的灵魂,没有情感的动画影片就像一具华丽的空壳,无法和观众产生心灵互动与情感共鸣,无法长期根植于观众们的内心世界。本文通过对动画影片中情感表
目的:探讨Stanford B型主动脉夹层(TBAD)患者行腔内隔绝术后(TEVAR)再干预的危险因素。方法与材料:回顾性分析2011年10月至2018年9月在我院接受TEVAR治疗的192例TBAD患者。分
细菌纤维素因其独特的纳米纤维网络结构具有较强的可设计性,同时纤维的高强度和表面丰富的羟基官能团为其作为一种优良的自支撑柔性基体提供了充分的可能。来源广泛,成本低,无毒绿色环保成为了其迅速发展的有利因素。在细菌纤维素基体上负载活性物质,或作为碳源大量制备活性炭材料作电极材料成为了其在能源材料领域的主要应用之一。本文通过细菌纤维素纳米纤维表面包覆聚吡咯活性物质,聚吡咯/细菌纤维素复合碳源热解炭化,细菌
随着通信技术的快速发展,通讯网络从2G到4G的过渡仅仅用了十几年的时间。如今,全球正在加速5G的进程,大规模的5G商用不久将实现。5G的一个重要趋势就是频段不断地向毫米波段延伸,由于毫米波段存在电磁损耗问题和传输过程中信号质量问题,5G天线的应用将目标集中在阵列研究,尤其是相控阵列,因为相控阵列可以凭借其扫描特性有效缓解信号多径效应引起的衰减。随着通信平台越发要求具备多功能性质,不同功能的工作频段