基于回溯的大规模分布式子图枚举算法研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:rockman27
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给定一张大的数据图和一张小的模式图,子图枚举的任务是找到数据图中所有与模式图同构的子图。子图枚举是许多复杂图分析应用的基础。分布式大规模子图枚举算法数据通信开销大,计算复杂度极高,因此,研究大规模数据图上的高效子图枚举方法具有重要的学术意义和实际应用价值。现有的分布式子图枚举算法可以按深度优先、广度优先分为两类。基于深度优先搜索模式的算法,存在盲目复制数据图到各个节点的弊端。当数据图规模增大或模式图变复杂时,其数据复制量急剧增大,使其难以扩展到大规模数据图或复杂模式图上。而基于广度优先搜索模式的算法,将子图枚举问题转换为分布式多路join问题。这些算法在join的过程中需要shuffle大量中间匹配结果,而这些中间匹配结果的数量可能远远大于数据图本身的规模,导致算法并不高效。此外,部分算法还需要昂贵的开销来构建和维护额外的索引结构。针对现有算法的缺点,本文进行了以下研究工作:(1)研究提出了一种基于回溯的静态图分布式子图枚举算法框架BENU。BENU将子图枚举任务划分为一组可以并行执行的局部搜索任务,每个任务以数据图的一个顶点为中心点,根据基于回溯的执行计划来枚举模式图在数据图中的匹配。BENU采用了基于邻接表的存储和按需shuffle技术,只需按需查询枚举过程中涉及到的数据图边集,不需要shuffle任何中间匹配结果,也不需要构建任何额外的索引。(第三章)(2)研究提出了一种基于搜索的最优执行计划生成算法。基于搜索的最优执行计划生成算法通过一系列优化技术来降低执行计划的执行开销,同时使用开销估计模型,从所有合法执行计划中选出具有最低执行开销的最优执行计划。此外还提出了两种剪枝技术来缩小算法的搜索空间。(第三章)(3)研究实现了本地数据库缓存技术和任务分割优化技术。本地数据库缓存技术使用内存缓存来存储从分布式数据库中获取的邻接表,充分利用任务内和任务间局部性,显著降低通信开销。而任务分割优化技术通过将一个大的局部搜索任务拆分成多个子搜索任务,有效解决局部搜索任务的负载不均衡问题。(第三章)(4)研究实现了基于Streaming-BENU算法框架的动态图分布式持续子图枚举算法。在上述静态图方法基础上,针对动态数据图进行扩展,提出了一种Streaming-BENU算法框架,解决动态图上的持续子图枚举问题。Streaming-BENU通过枚举增量模式图的同构子图,可以直接从数据图的变化部分计算出匹配结果的变化情况,并在枚举过程中只保存动态数据图,不保存任何中间匹配结果。(第四章)(5)在真实的大规模图数据集上对BENU和Streaming-BENU算法框架进行了性能评估。实验结果表明,BENU和Streaming-BENU均优于现有最好的分布式(持续)子图枚举算法。尤其是在复杂模式图上,BENU和Streaming-BENU表现出了优异的性能。(第五章)
其他文献
伴随着物联网技术和“互联网+”概念的成熟和普及,各种传统领域均选择与物联网技术结合发展,这使得基于物联网的智能设备得到了迅猛地发展。本文融合智慧体育的思想,设计并实
员工绩效管理是后勤人力资源管理体系的重要内容,对深化后勤改革具有重要意义,对后勤战略实施部署具有重要影响。但是基于民办高校后勤的服务范围和工作内容,其员工的整体素
随着智能相机的普及与多媒体技术的高速发展,如何从海量的图像中快速和准确的去除冗余,找到人类所需和感兴趣的信息就显得尤为重要。而图像的显著性检测旨在分析图像信息提取
在水处理领域,提高吸附剂的吸附效率和增强其回收利用率是推进吸附材料实际应用的关键。颗粒较小的氧化铈材料具有较强的吸附性能,但不易于回收再利用,因此将增加处理的成本,
当前,我国高校办学规模仍在不断扩大,高校建设数量仍处于稳步增长阶段。“双一流”高教发展计划的提出以及“产学研”合作模式的日渐成熟,对高校学科建设及建筑设计提出更高
生物体内分布有很多种有活性的小分子,例如,活性氧族、活性氮族、氨基酸、核苷酸以及各种酶类等。由于这些小分子参与了生物体内很多生理和病理过程,这对于维持生命的正常生理活动起着至关重要的作用。因此,监测它们的水平及变化可以作为衡量细胞的增殖、代谢过程的一项重要指标。基于苯并吡喃腈结构的荧光团,本文合成了三个结构类似的用于检测过氧化氢的近红外探针Dicp1、Dicp2、Dicp3。与Dicp1、Dicp
随着科学技术发展,纳米技术已是当下科学研究的一大热点,纳米材料的特殊结构决定其具有不同于常规材料的特殊性能,因而纳米材料在航空航天、微电子系统、热电转换系统等工程领域中的应用引起了科研工作者的浓厚兴趣。研究微纳米尺度下的接触热阻有助于解决微电子器件的散热难题,进一步降低微器件的尺寸,提高微器件的可靠性,对微电子器件散热和微纳米技术研究领域的发展有着极其重要的意义。本文测量了金属微米线之间纳米接触的
学位
随着社会对电网要求的不断提高,行业对架空导线性能也提出了更高的要求,从而对铝合金杆的冶金质量控制技术与水平也提出了更苛刻的要求。长期以来,国内在架空导线用铝合金杆生产工艺的研究过程中,关注的重点在于合金的成分配比,对合金其它冶金质量方面的控制技术研究相对较少,因此材料的性能难以上一个新台阶。铝熔体除氢、晶粒细化都是这类已被应用但未被研究透的技术。此外,近年来电磁净化技术开始受到国内外的广泛关注。该
如今,教育正变得越来越信息化。随着国家对学历教育的更加重视,对基础教育的学科建设要求越来越高,学科的教学任务也越来越重,相关的研究单位和人员正在对学科教学进行改革和