面向自然图的分布式图计算优化技术研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:kelly_0810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网页检索技术、社交网络、生物信息科学的快速发展和人脑计划实施,图论知识和算法得到了广泛应用和发展。图领域数据规模正以前所未有的速度急剧增加,云计算技术的飞速发展,分布式图计算已成为已经成为学术界与工业界的研究热点。提升海量图数据划分效率,降低内存存储开销,减少机器间的通信量等等,已经成为分布式的图计算平台性能优化的关键性问题。GraphA是本文作者基于Spark分布式平台实现了一个简单的图分布式处理平台,本文通过研究GraphA的数据划分和内存存储管理效率探讨了分布式图计算性能优化技术,重点围绕自适应的分区算法和基于ART索引的存储方式展开了深入研究。本文的主要研究内容和贡献包括:一、深入研究并分析了分布式图计算的基本原理和特点,包括MapReduce、BSP、GAS三种基本的分布式计算框架,这些是本文优化方案的基础支撑技术;另外,重点论述了已有的图数据划分算法及相关存储技术,总结前人研究成果的优点和应用价值,并结合“自然图”的幂率分布特点和应用实际,指出其各自的局限性。二、针对海量图数据的划分问题,提出了自适应的图分割算法。无论是社交网络数据还是网页数据都是服从幂率分布的特征,即数据中存在高维度的点和低维度点,相比现有的点分割,边分割和混合分割的划分算法相比,自适应的分区算法不区分高维度点和低维度点,提供一种统一的划分方案,通过设计一系列序号递增的哈希函数,配合使用全局的分布式分区表记录所有点的分区情况,实现图数据的高效分区。实验结果证明,自适应分区算法能够均衡计算负载,同时能够保留输入的图数据原始的局部性,减少每次迭代过程中分区之间的通信量,避免在数据划分阶段出现全局的shuffle情况,从而满足图计算在数据划分问题上的性能优化需求。三、针对图的内存存储管理效率问题,提出了基于ART索引的图存储模型。图算法具有增量更新的特点,并不是每一轮迭代都更新图中所有点的属性或所有边的属性。Spark RDD(弹性分布式数据集)具有Immutable特性,当初设计为了保证数据一致性,对于图计算增量更新的特点,Spark RDD会从原数据做一次拷贝,所以一次RDD迭代更新的代价很大。GraphA引入一种细粒度更新的RDD存储结构,该结构采用ART索引,在保证数据一致性的同时,实现图数据细粒度的更新操作,加快图的查询更新速度,降低内存开销。本文对大规模图数据划分算法和图数据存储技术的优化进行了探索,研究成果对于分布式图计算平台的性能提升有一定的理论价值和指导意义。最后,本文通过大量实验验证了GraphA的性能。
其他文献
随着人们日益增长的通信需求和地球上复杂环境的限制,现有地面上的网络已经不能满足人们的通信需求。卫星通信网络具有组网灵活、覆盖范围广、网络建设迅速、地理局限性弱等
机器类通信的发展使得接入通信系统的终端数量急剧增加,为了应对终端大量连接的问题需要进一步提升通信系统的容量。本文在现有通信体制的基础上,提出了将OFDM信号和CDMA信号
随着中国经济的不断发展和重大项目的不断建设,征地拆迁的任务也越来越多。在征地拆迁的过程中,虽然有国家以及省、市、区相关的征迁文件的支持,但在现实的工作中,仍然会遇到
多处理器系统具有良好的可扩展性,它可以满足大型数据库的高性能需求。在多处理器系统中,影响其查询效率的一个重要的因素就是查询调度。虽然国内外学者对于查询调度的研究层
随着云计算的飞速发展,人们的生活得到了极大的改善。数据的日益增长使得用户开始使用云存储服务。而这种数据外包的方式,导致用户无法完全把控自身的数据,同时数据的安全性
藏语文教学与学生的学习效率主要取决于教师对藏语文教学任务的认识程度。教学任务是指教师在教学过程中以各个教学阶段的教学目标为依据所实施的课堂实践。在教学阶段的时间
在移动互联网时代,智能移动设备承载了用户大量的隐私信息,因此正确的用户鉴权认证成为安全访问这些敏感数据的首要前提。传统口令认证方式可能遭受越肩偷窥,指纹与人脸识别
随着视频技术和应用的发展,特别是高清(HD)、超高清(UHD)、3D和多视点(Multi-View)视频技术的兴起,产生的视频数据量在急剧增加,尽管近年来网络带宽和传输能力增加迅速,但仍
在传统的异构蜂窝选择方案中,存在上下行链路覆盖不平衡以及宏蜂窝终端的上行传输信号对小蜂窝基站的干扰等问题。蜂窝范围扩展技术与几乎空子帧技术等被认为是解决相关问题
随着计算机科技的发展,许多实际应用领域涉及到大量空间目标对象,空间关系反映空间目标的几何位置及属性之间的关系,它是人工智能、空间数据库、地理信息系统(GIS)、机器人学