图计算系统关键技术研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:laopengtou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,诸如微博、社会网络等社交网站正处于高速发展的阶段,越来越多的数据被用户发布到图结构的网络中,伴随而来的是对于社会网络图、知识图谱等图数据的分析和服务需求的进一步提升。  现有的线上服务系统往往使用传统的分布式技术,采用水平扩展方式将数据分布在多台服务器中。然而与传统数据的线性访问模式不同,在图数据系统中,一个节点交互的数据通常涉及周围一度或二度邻居节点。此时,若采用传统的分布式技术,这些数据将分布在整个服务器集群中,使得服务器的通信代价陡然增加。  本文在已有研究的基础上,提出了一种基于顶点切分的启发式副本放置策略,在增量反映图结构变化的基础上,可以有效降低高度数节点在获取邻居信息时涉及的服务器数量。该算法可以实时对图结构的变化快速作出反应,因此具有较强的实用性。  另一方面,作为批处理框架MapReduce的替代品,图计算系统正在越来越广泛地被各类企业运用于日常的数据分析和计算中。然而随着大规模运用,现有的图计算系统的问题也越来越突出,如对内存的需求较高、容错机制效率差、资源管理不到位等。  针对这些问题,本文在充分测量Giraph等开源系统表现的情况下,提出了全新的内存共享机制和资源调度机制,基于简单图计算模型提出了轻量级快照,并在实验系统中完整实现。经过与Giraph和Spark等开源系统的对比测试,系统有效降低内存需求,在任务执行速度和集群吞吐上均有大幅改善。  
其他文献
该文研究的重点是中文多文档自动文摘的几个关键技术:汉语句子相似度计算、局部主题的确定、文摘生成以及多文档自动文摘的评价技术等.句子相似度的计算在多文档文摘中有着非
随着社交网络的流行,人们开始在社交网络上频繁发布和分享信息,产生了大量用户数据内容。其中有一类社交网站,称为社区问答网站。国外知名的如StackFlow,Quora等网站,国内知名的有
现代计算机系统普遍采用基于虚拟存储的存储管理方式,通常在处理器内部需要集成存储管理单元与操作系统配合实现高效虚拟存储。存储管理单元的核心功能是将程序访存的虚拟地址
随着移动通信技术的飞速发展和嵌入式设备、移动设备的迅速普及,移动应用作为一个新的计算机应用领域受到人们越来越多的重视。目前,国外面向行业的移动应用已经发展得比较完善
金融审计是国家审计的重要内容,随着金融行业信息化的程度不断加深与计算机技术的运用日臻成熟,计算机辅助审计已成为审计机构将来进行金融审计工作的必然方向和趋势。数据仓库
通用管理系统(UMS)是综合化飞机管理系统的重要组成部份,是全面提高战斗机的作战效能的关键技术之一;对于改善机电子系统的性能、减轻驾驶和地勤人员的劳动强度、提高飞行的
并行海量数据挖掘技术利用并行计算(Parallel Computing)技术,针对海量数据特点,研究数据挖掘的新理论和新方法.关联规则、分类、聚类、相似性搜索和时间序列模式是挖掘算法
随着互联网络的飞速发展,信息的安全问题变得越来越重要。作为信息安全技术中一个新的研究领域,信息隐藏技术已经成为人们研究的热点。JPEG2000是新一代的静止图像压缩标准,如何
有效的用户管理和访问控制是网络中各种资源稳定、可靠地运行,以及受控、合法地被使用的保障.该文依托于863缩小数字鸿沟—西部行动公共信息平台项目"基于国产Linux农牧林业
随着超大规模集成电路(VeryLargeScaleIntegratedcircuit,VLSI)工艺的发展,对VLSI设计工具提出了更高的要求。布局是VLSI物理设计的一个重要步骤。在当前的工艺环境下,布局工具