论文部分内容阅读
随着互联网的不断发展,诸如微博、社会网络等社交网站正处于高速发展的阶段,越来越多的数据被用户发布到图结构的网络中,伴随而来的是对于社会网络图、知识图谱等图数据的分析和服务需求的进一步提升。 现有的线上服务系统往往使用传统的分布式技术,采用水平扩展方式将数据分布在多台服务器中。然而与传统数据的线性访问模式不同,在图数据系统中,一个节点交互的数据通常涉及周围一度或二度邻居节点。此时,若采用传统的分布式技术,这些数据将分布在整个服务器集群中,使得服务器的通信代价陡然增加。 本文在已有研究的基础上,提出了一种基于顶点切分的启发式副本放置策略,在增量反映图结构变化的基础上,可以有效降低高度数节点在获取邻居信息时涉及的服务器数量。该算法可以实时对图结构的变化快速作出反应,因此具有较强的实用性。 另一方面,作为批处理框架MapReduce的替代品,图计算系统正在越来越广泛地被各类企业运用于日常的数据分析和计算中。然而随着大规模运用,现有的图计算系统的问题也越来越突出,如对内存的需求较高、容错机制效率差、资源管理不到位等。 针对这些问题,本文在充分测量Giraph等开源系统表现的情况下,提出了全新的内存共享机制和资源调度机制,基于简单图计算模型提出了轻量级快照,并在实验系统中完整实现。经过与Giraph和Spark等开源系统的对比测试,系统有效降低内存需求,在任务执行速度和集群吞吐上均有大幅改善。