【摘 要】
:
随着互联网信息规模的急速膨胀,对大规模数据进行快速处理、学习和挖掘的需求也变得越来越多。在许多真实应用比如社交网络中,具有图结构的数据的规模也在不断变大。因此,基于图计算的大规模分布式(并行)机器学习框架受到了越来越多的关注。一方面,许多数据间的依赖关系可以自然地用图来进行建模,而且许多数据本身就具有图或网络的结构,例如社交网络数据;另一方面,许多机器学习和数据挖掘的算法也可以用图或网络来建模。在
论文部分内容阅读
随着互联网信息规模的急速膨胀,对大规模数据进行快速处理、学习和挖掘的需求也变得越来越多。在许多真实应用比如社交网络中,具有图结构的数据的规模也在不断变大。因此,基于图计算的大规模分布式(并行)机器学习框架受到了越来越多的关注。一方面,许多数据间的依赖关系可以自然地用图来进行建模,而且许多数据本身就具有图或网络的结构,例如社交网络数据;另一方面,许多机器学习和数据挖掘的算法也可以用图或网络来建模。在基于图计算的大规模机器学习框架中,数据以图的结构表示。为了在这种图结构的数据上运行分布式(并行)机器学习或数据挖掘算法,首先必须将这些结构化的数据分配到分布式环境中的每一台计算机上。数据的分配会影响到算法运行期间,集群中的计算机直接的通信量和每台计算机的负载均衡,因此会在很大程度上影响分布式算法的运行效率。图结构的数据分配因而在基于图计算的大规模机器学习框架中扮演了重要的角色。理想的数据分配方式,将会在大致平衡每台计算机之间的负载的同时,最小化集群中计算机之间的通信量。这一类具有图结构的数据的分配问题统称为图的分割问题。为了快速求解图分割问题,往往使用随机化的图分割算法。许多真实数据的图的节点度数分布往往服从幂律分布,这样的分布增加了数据分配的难度。近年来,研究者们提出了一些随机化算法来求解图分割问题。然而,现存的随机化图分割算法对于服从幂律分布的图难以得到令人满意的效果。此外,极少有随机化的图分割算法利用了图中每个节点的度数信息。在本课题的研究将会提出新的图分割算法,包括随机化图分割算法和贪心算法。本课题还将对随机化图分割算法的通信量和负载均衡进行理论分析。最后,将通过实验展示算法的优越性。
其他文献
目前,量子安全计算领域日益备受关注,量子隐私比较作为量子安全计算的重要分支也得到了深入研究。目前,在量子隐私相等关系比较协议中,大多数只能比较数字的相等关系,不能比
随着社会的发展与进步,人们的生活水平也不断提高,狗在人们日常生活中出现的频率也逐渐增加,越来越多的机构和组织也投入了对狗的研究与应用。其中狗脸图像的多目标检测具有
随着智能手机等移动电子设备的快速发展与普及,如今已进入全民摄影时代。由于摄影条件和摄影者自身美学鉴赏能力的差异,所拍摄图像的美学质量也呈现出较大的差异。为满足人们
目的:共词聚类分析结果的表达是共词分析应用的最后一步。现有的共词分析结果表达的方法均具有一定的局限性,所得到的结果存在主观性较强及表达不全面等问题。本研究提出基于
随着近几年的发展,深度学习方法在许多人工智能应用领域取得了极大的突破,例如计算机视觉和自然语言处理。其中在计算机视觉领域,不同于传统方法依赖的手工特征提取,深度学习由于其端到端训练的特点,和优越的特征提取性能,近几年以卷积神经网络为代表的深度学习方法几乎在所有计算机视觉子领域都取得了重大突破,极大地推进了这些研究领域的发展。在本文中,基于卷积神经网络,我们将聚焦计算机视觉领域中两个重要任务:图像识
近年来,灾害事件、恐怖袭击频发,使得搜救机器人逐渐成为机器人产业中受到较大关注的一个分支。搜救机器人凭借其自身结构特点可以在战后、灾后(地震、火灾、恐怖袭击等)未知
土地是农业的根本,农用地的数量、质量、利用情况及其空间分布等信息是构成农业信息资源的基本要素和重要基础。对农用地数据进行精确采集和动态跟踪管理,是实现现代农业生产
随着2019年《政府信息公开条例》的修订,过程性信息正式作为政府信息存在的形态之一,被纳入“可以不予公开”的范围之中。但是在目前的法律制度中,过程性信息的概念界定模糊,公开与否的认定标准不一,对信息公开的具体实践造成困扰。因此,对过程性信息的豁免公开作出合理认定有着重要意义。合理构建过程性信息豁免公开的认定体系,首先需要明确过程性信息豁免公开的理论基础。为了保障行政机关内部坦诚交流、保证行政效率与
信息技术的发展给人们带来了不少好处和便利,但是信息安全和版权保护问题同时也变得益发突出。数字印刷品作为信息交互的重要方式,其版权保护和信息安全也越来越受到重视。数
本文主要进行了两项工作:一是对中心-外围模型(Center-Periphery Model,一般简称C-P模型)进行推广并建立理论模型。本文在标准C-P模型中引入了政府部门,进而探究在农业部门,