大规模分布式图顶点相似度计算算法研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:fakejay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图顶点相似度计算问题,即在图上计算出所有相似度系数大于等于给定阈值的顶点对,该问题作为图分析领域的基础性算法问题,广泛应用于用户推荐、关系链预测等领域。然而,图顶点相似度计算是一个计算复杂度较高的问题,尤其是在大数据时代。因此,大规模分布式图顶点相似度计算方法和算法研究成为一个重要的研究课题,具有很高的理论研究和实际应用价值。目前已有一些分布式图顶点相似度计算算法研究工作,主要分为基于过滤的计算和全量计算两大类方法。然而,目前已有的工作和方法还存在诸多问题,例如全量计算算法存在冗余、shuffle阶段的冗余数据造成网络通信量的增加等等。同时,现有算法不能在0-1的全阈值范围内都取得良好的效果,基于过滤的算法适合高阈值情况,而全量计算算法适合低阈值情况。此外,现有的数据并行平台上的分布式算法shuffle效率较低,Hadoop和Spark平台上数据shuffle处理时都是基于磁盘交换的,对于大规模图上顶点的相似度计算来说,算法执行过程中shuffle处理时会出现频繁的数据交换和读写磁盘文件操作,这大大降低了程序的运行效率。为解决以上问题,本文提出了两个算法FinNOR-MR和FinNOR-Adaptive,主要研究工作和贡献包括以下几点:(1)为解决全量计算算法中存在冗余的问题,本文提出了一种新的分布式图顶点相似度全量计算算法FinNOR-MR,该算法利用一种新的基于分区的交换策略,而不采用传统算法中基于顶点进行数据交换的策略,有效减少了冗余数据传输,网络通信量明显降低。(2)为解决现有算法不能在0-1全阈值范围内都取得良好效果的问题,本文提出了一种高效的自适应算法FinNOR-Adaptive,可高效解决图顶点相似度计算问题,并能在0-1全阈值范围内都取得良好的效果。FinNOR-Adaptive算法具有自适应的能力,在低阈值情况下选择使用全量计算模式,高阈值情况下选择使用基于过滤的计算模式,并利用计算开销的估计模型在计算过程中动态切换计算模式,实现全阈值范围内的高性能顶点相似度计算。(3)为解决现有数据并行计算平台上数据shuffle效率较低的问题,本文利用MapReduce框架和分布式数据库,实现了一种分布式FinNOR-Adaptive算法。该算法用数据库查询代替MapReduce中的数据交换,省去大量的基于磁盘的数据shuffle的IO开销,同时采用高速缓存机制,它可以起到类似于FinNOR-MR中基于分区的交换策略的效果,从而大幅降低网络通信开销。这两种优化措施使得FinNOR-Adaptive在全阈值范围内成为目前计算性能最好的顶点相似度计算算法。(4)实验评估表明,FinNOR-MR算法性能优于目前所有的全量计算算法,与理论分析一致。与目前最快的基于MapReduce的全量计算算法相比,FinNOR-MR算法计算效率可达到3.5倍的加速比,网络通信量下降到现有最快算法的5.7%。同时,实验也证明FinNOR-Adaptive算法在全阈值范围内均能高效解决τ-PVSC问题,自适应策略效果良好,在低阈值部分性能优于最高效的全量计算算法,在高阈值部分性能与最快的基于过滤的算法性能相当。且两个算法算法均有近似线性的数据扩展性和节点扩展性。
其他文献
如今人口老龄化加剧,用于护理任务的机器人需求很大。护理机器人的关键技术难点在于其关节对大负载的承受能力,和在执行护理任务时的安全性。本文为用于病房中移动病人的护理
随着深度学习在计算机视觉领域的发展,基于深度卷积神经网络(CNN)的语义分割算法也取得了巨大的进步。图像语义分割在医学图像处理、地理信息系统、自动驾驶、机器人视觉等方
随着经济的不断发展,人们对电力的需求也在不断加大。我国作为人口大国,对电力资源的需求更大,能源的损耗和造成的环境污染是火力发电方式不可避免的难题。因此对热电厂燃烧系统进行优化成为国内外学者的重要研究课题。传统建模方式在处理锅炉燃烧这一复杂工程建模时,通常面临着非线性和强耦合的问题。针对传统方式的不足,快速学习网具有的优良的学习能力,使得该网络具备应对复杂建模的基础。针对快速学习网在实际工程中遇到的
自然语言中的命题附加语义主要指否定语义和不确定语义。其中,否定语义由否定运算符对命题自身或对与其相关的某方面语义进行了反转;不确定语义指人们对事物的表述处于一种模
喀斯特山水、少数民族风情和亚热带高原气候是贵州高原旅游资源的优势,因此,可以开展真山真水真情贵州游,并借鉴瑞士旅游开发经验,营造优质的旅游服务环境。
等离子体转动能稳定宏观流体动力学不稳定性,抑制微观湍流输运,是托卡马克实现高参数稳定运行的关键。因外部动量注入无法满足驱动未来聚变堆(如ITER和CFETR装置)等离子体转动的需求,等离子体自发/本征转动是否能提供必要的速度成为人们研究的热点。目前大多数观点认为本征转动的源项主要来自于等离子体边界,许多托卡马克都有应用共振磁扰动(RMP)来优化边界磁场位形。本文研究RMP所产生的边界磁岛对等离子体
口令又称为“密码”、“用户密码”,是由用户生成、维护,并用以鉴别用户身份或访问权限的一串可输入字符。因其易于部署、几乎没有额外开销、轻量级等优点,得到了广泛的应用,
新医改之后,全民医疗保险的制度架构基本形成。医保制度的推行改变了临床医疗模式,从经验医疗到循证医学的过渡,要求高度整合化的医院信息管理系统。中国医疗改革在从个人付
近年来,我国传统银行业出现不良贷款率攀升等一系列信贷风险问题,金融科技的快速发展颠覆了银行业的传统运行方式和经营模式。银行业和金融科技逐渐出现深度融合趋势,催生了一种新型金融模式——互联网银行。2014年12月,前海微众银行作为我国第一家互联网银行宣告成立,背靠腾讯大数据平台,利用金融科技搭建先进的信用评级体系、模型和机制,微众银行的信贷风险远低于行业水平。本文案例部分介绍了微众银行的基本情况、信
随着非线性科学的发展,因为混沌信号具有复杂的运动轨迹和不可预测性,同时由于光纤带宽巨大,近年来基于半导体激光器的混沌通信日益受到研究者的广泛关注,利用混沌同步实现保