论文部分内容阅读
随着社交网络、推荐系统、生物信息网络和web网页等领域的应用快速发展,大量的数据被建模成图以挖掘其中有价值的信息。为了满足图数据应用对数以千万甚至上亿顶点数量的图数据的处理要求,分布式图数据处理系统借助云环境的海量存储能力和强大计算能力,可以显著提高对大规模图数据的处理性能。然而,目前流行的基于BSP计算模式的分布式图数据处理系统由于同步阶段的存在,“水桶效应”对上层图数据应用的性能带来巨大影响。如何在已有的图数据处理模式之上,进一步提高图数据应用的处理性能,从而实现对大规模图数据的快速高效处理,是当前图计算领域关注的热点问题。本文利用云环境资源弹性供给的特点,旨在从底层资源分配的角度出发,根据给定的大规模图数据处理问题中各个子任务之间的执行关系,为其分配合适的资源,研究面向大规模图数据处理的资源优化机制,从而在保证底层资源利用率的情况下缓解上层图数据应用执行时由于“水桶效应”带来的性能制约,提高大规模图数据处理的执行速度。具体工作主要包括以下三个方面:1.研究大规模图数据应用执行特征提取与执行模式分析机制。由于图算法逻辑的差异性和图数据结构拓扑的复杂性,以及大规模图数据处理在分布式环境下执行的固有模式,大规模图数据应用具有动态差异性资源需求特征。为此,本文基于现有的开源大规模图数据处理系统进行二次开发,对影响图数据应用资源需求的执行特征进行提取,进而分析出特定图数据应用在对应的图数据结构下的执行模式,为后续的底层资源分配提供研究基础。2.研究应用执行模式感知的资源按需分配和动态调整机制。本文考虑到大规模图数据处理问题的资源需求特点,以及云环境下资源分配的过程,针对图数据应用到达时的应用类型和图划分完成后子图的结构,结合上层分析得到的应用执行模式,设计了一个两阶段的资源分配方法进行资源的准确分配,减少“水桶效应”的性能影响,从而提高应用层的大规模图数据处理系统的执行性能以及整体资源利用效率。3.由于本文的研究基于真实的图数据应用,因而基于现有的开源图数据处理系统Giraph,设计并实现了一套应用资源需求感知的大规模图数据处理系统以集成相应功能模块,并将其部署于东南大学云计算平台开展图数据处理,一方面为上层图数据应用执行模式的分析提供支撑,另一方面用来验证本文的研究思路和实际成果。综上所述,基于在真实的云环境中进行大规模图数据处理得到的实验结果,本文提出的应用执行特征提取和执行模式分析机制可以准确地预测出图数据应用在一段超步内的应用执行特征变化趋势,而应用执行模式感知的资源按需分配和动态调整机制可以有效缓解“水桶效应”对图数据应用执行性能的影响,并显著提高资源的利用效率,本文为在现有的系统基础之上进一步优化图数据处理的执行性能提供了新的解决思路。