基于BSP的大规模图处理系统中通信和缓存技术研究

来源 :东北大学 | 被引量 : 1次 | 上传用户：week11430

【摘要】

：

随着计算机以及网络技术的发展,在计算机集群中采用并行的分布式计算方式提高计算处理能力已经成为发展趋势。云计算(Cloud Computing)的一个最主要的优势就是它的强大的并行

【作者】

：

白秋石

【机构】

：

东北大学

【出处】

：

东北大学

【发表日期】

：

2012年01期

【关键词】

：

BSP 图处理消息通信磁盘缓存云计算

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机以及网络技术的发展,在计算机集群中采用并行的分布式计算方式提高计算处理能力已经成为发展趋势。云计算(Cloud Computing)的一个最主要的优势就是它的强大的并行计算处理能力,而这种能力是建立在一个简便高效的并行编程模型的基础上的。其中,最有代表性的就是Google提出的MapReduce分布式并行编程模型。然而,随着近年来互联网应用的迅猛发展,Web网络、社交网络等大规模网络图数据的分析处理成为了研究热点,例如社交网络中的最短路径、网页搜索的PageRank等。这些图处理问题通常需要多次迭代,而MapReduce适合于通用的大数据集计算问题,在处理具有多次迭代性质的图挖掘问题时会导致次优的性能。因而这些图算法往往更适合于采用基于消息传递的并行模型来处理。BSP (Bulk Synchronous Parallel)整体同步并行模型就是一种支持消息传递的块内异步并行,块间显式同步的并行计算模型。随着Google基于BSP模型实现的大规模图处理系统Pregel的提出,在云环境中采用BSP模型实现大规模图处理系统成为了主要的解决途径。本文旨在以BSP模型为核心,研究基于BSP模型的大规模图处理系统中的消息通信原理和磁盘缓存技术的设计方案及其实现等问题。提出了一种基于队列的消息组织方式和通信方案,并在此基础上提出了基于消息打包、多发送者线程池以及支持消息合并的优化通信方案。针对基于BSP的大图处理系统可能存在的内存不足以存放计算中所有的图和消息数据的问题,本文建立了数据的内存管理模型,并基于内存优先(Memory First)的思想,分别提出了图数据和消息数据的磁盘缓存策略及相应的算法：MF-GHIC算法、MLF图数据遍历算法和基于消息队列优先级的消息数据磁盘缓存算法等。将本文提出的通信和缓存技术应用于NEU-BSP系统中,我们通过实验,首先分析了通信方案中各类参数的较优值及其相互的制约关系；其次证明了在磁盘缓存率低于30%时,系统的时间性能下降并不显著；最后,我们以PageRank和单源最短路径为例,通过与Hadoop系统的对比实验,证明了在数据完全驻留内存时,NEU-BSP系统比Hadoop系统快1.2到18倍,在数据超过30%以上缓存到磁盘时,NEU-BSP系统仍然能保持与Hadoop系统基本持平的时间性能。

其他文献

面向对象的公安线索多媒体数据库系统的研究与应用

文章通过对扩充关系模型、面向对象模型和超媒体模型三种多媒体数据库的数据模型实现方式进行比较总结,并结合公安线索系统的实际情况,提出了面向对象多媒体数据库的数据模型

学位

面向对象多媒体数据库数据模型UML

面向领域的B2Bi Web服务和数据交换中心系统研究与实现

该文将在理解B2Bi电子商务概念及We6服务和数据交换技术的基础上,以构建面向纺织服装领域的B28iWeb服务和数据交换中心系统为目标,从系统的体系结构、系统建模、设计方法和关

学位

B2BiWeb服务数据交换UDDIXML电子商务

MPLS多播系统链路修复研究

论文首先介绍了与链路中断修复机制相关的各种交换方式,描这了电路交换,数据报交换以及虚电路交换三者的基本特性.概述MPLS网络体系结构,MPLS技术的体系结构、技术优势、典型

学位

MPLS多播交换技术LSR链路中断

基于移动代理的适应性配置管理系统

近年来，人们对大规模分布式应用系统的要求不断提高，系统性能和可用性均已成为用户所追求的实现目标。为此，许多分布式应用采用了冗余服务技术：一方面，通过增加数据和计算的冗余度

学位

冗余服务配置管理层次结构权衡模型移动代理

电梯系统预防性维修策略数据挖掘方法研究

该论文结合概率论及关联规则数据挖掘方法,针对电梯维护工程特点,提出了一种新的基于维护种类选择及故障关联分析的数据分析方法,从而可以得到合理的故障维护安排策略.该文首

学位

维护策略数据挖掘关联规则概率论电梯工程

基于RTOS的离子迁移谱毒品侦查仪嵌入式软件的设计研究与实现

嵌入式系统是以应用为中心，以计算机技术为基础，软硬件可剪裁的专用计算机系统。近十几年来，嵌入式系统的发展异常迅速，而嵌入式操作系统作为嵌入式系统的核心，其应用也越来越广泛

学位

嵌入式实时多任务操作系统迁移时间控制

基于改进型遗传算法的配电网谐波畸变分析与研究

早在19世纪末，当交流电以一种新兴的动力形式出现时，人们就发现了系统中电压、电流存在畸变的问题。随着近代工业的不断发展，电力系统中各种负荷不断增加，特别是非线性负荷的增加，使得电网中谐波的畸变越来越严重，甚至已经达到了危害电力系统本身及其各种用电设备安全运行的程度，谐波的研究和治理已经成为一项的重要研究课题。目前此课题包含的内容主要有：电力系统谐波潮流计算、非正弦电量的测量方法和测量装置的研究、无

学位

谐波畸变率潮流计算遗传算法自适应

企业ERP&DSS系统中遗传算法的研究与应用

在制造业的生产管理方面,按照单项目无能力约束的批量生产计划制定的计划方案在实际执行过程中效果不是很理想,其中主要的原因是所作的批量计划方案超出了正常生产能力.有限

学位

ERP决策支持CLSP遗传算法罚函数

保险行业应用系统集成解决方案的研究与应用

企业在信息化过程中开发了许多面向特定功能，基于不同技术的应用系统。如何将这些应用系统进行集成，从而在企业中实现资源共享、业务自动化、提高效率和降低成本，对于企业有着特

学位

应用系统集成数据集成业务过程集成XML消息中间件JLEE

基于互信息的短文本分类技术

处于信息大爆炸时代的现代信息社会,大量的短文本正以迅猛的势头闯进了人们的生活中。短文本的形式有很多,比如,email,微博,手机短信,新闻标题摘要,书评及影评,产品介绍及评

学位

短文本分类互信息主题词抽取SVM短文本相似度

基于BSP的大规模图处理系统中通信和缓存技术研究

其他学术论文