基于BSP模型的分布式图计算系统性能优化研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户：jonay123

【摘要】

：

在社交网络关系挖掘、网页排序、推荐系统以及自然语言处理等大规模数据挖掘和机器学习应用的推动下,使用图数据结构来描述数据及数据之间关系的分布式图计算模型获得了日益

【作者】

：

丁鑫

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2014年期

【关键词】

：

分布式系统分布式图计算消息传递共享内存同步计算模型异步计算模型数据竞争

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在社交网络关系挖掘、网页排序、推荐系统以及自然语言处理等大规模数据挖掘和机器学习应用的推动下,使用图数据结构来描述数据及数据之间关系的分布式图计算模型获得了日益广泛的应用。图算法由于需要多轮迭代,各顶点数据间存在复杂联系,计算过程依赖点对点通信,因此以MapReduce及其开源实现Hadoop为代表的传统面向数据并行(Data-parallel)的计算模型难以提供高效的支持。为解决对于图计算的迫切需要和现有的计算平台无法满足大规模图计算需求的问题,Google公司提出了基于整体同步模型(Bulk Synchronous Parallel)的Pregel。Pregel提出像顶点一样思考的编程模型,用户只需提供一个简单的compute函数,系统负责处理顶点调度和数据通信等。Pregel将图计算任务的执行抽象成一个超步(superstep,也称轮),每一个超步由顶点计算(computation),数据通信(communication)和全局同步(barrier)组成。用户提供的顶点计算函数在当前超步中只能访问该顶点自己的信息和来自(入边)邻接顶点在上一个超步发送的消息(message),而发送给(出边)邻接顶点的消息会在下一个超步到达。Pregel所提出的同步计算模型编程简单,计算具有确定性,易于调试。然而Pregel采用的纯消息传递(pure message passing)机制仅支持单向的数据推送(Push),因此对于需要主动获取邻接顶点信息的拉模型(Pull-mode)图算法,Pregel在整个执行过程中必须保持所有顶点处于活跃状态(执行计算和发送消息),导致大量针对已收敛顶点的重复计算和发送大量具有相同数据的消息,严重影响系统性能。本文提出使用备份顶点模拟分布式只读共享内存优化原有的纯数据通信机制,克服了原有模型消息量大、对于拉模型算法存在重复计算和重复消息的问题,并且针对日益普遍的多核集群提出了针对多核架构的支持,进一步优化了分布式图计算系统的性能。基于Hama (Pregel的Apache开源实现)的实现在一系列应用和数据集的测试显示新的通信机制能使系统的总体性能提升2.06倍到8.69倍。同步计算模型虽然调度简单,但是每轮计算都只能使用邻接顶点上一轮的数据进行计算,收敛较慢。与同步计算模型相对,卡耐基梅隆大学的研究人员开发的GraphLab率先提出了异步计算模型。在异步计算模型中,各顶点在更新自身数据后会立即通过消息发送更新,因而邻接顶点可以使用最新的数据进行计算,因而整体计算收敛较快。随后针对现实世界的图通常是符合幂律的不规则分布图(即少数的点可能拥有大多数的边),作者在GraphLab的基础上提出PowerGraph,通过vertex-cut(“顶点切分”)的划分方法将顶点计算分散到各个节点上并行执行,以解决各个节点计算和通信的不平衡问题。然而异步计算模型虽然计算收敛快,但是需要为所有未收敛顶点维护全局(分布式)的调度队列,并且要保证在异步访问的条件下各顶点数据的一致性,开销很大。同步和异步两种计算模型各有优缺点,为结合以上两种计算模型的优点,避免各自的缺点,本文提出了混合计算模型。混合计算模型使用同步的调度方法避免繁重的调度开销,同时采用异步的数据传输机制使得各顶点能够使用邻接顶点的最新数据计算,加快整体计算的收敛速度。基于PowerGraph平台实现的混合模型引擎在两个典型图算法和三组真实大规模图数据集上的评测显示,混合计算模型相对于同步模型平均可以减少30%的计算量,性能可以提升至其1.2倍到2.4倍,相对于异步模型由于调度开销的减少,性能最高可达到其4.6倍。

其他文献

一种兼顾易用性及隐私性的Android手机安全输入系统的研究与实现

随着移动云计算的兴起,以智能手机为代表的移动设备已经成为人们日常生活一部分。越来越多的用户将自己的隐私数据存储在移动设备上,移动平台的数据安全问题越来越重要,特别

学位

移动安全用户隐私保护进程状态保存和回滚

嵌入式RS-232/Internet网关的设计与实现

随着网络技术的发展，以太网和TCP/IP在工业控制领域得到了越来越广泛的应用，但是，许多工业控制设备的数据传输使用的是符合RS-232标准的串行接口。为了使具有串行接口的设备能上

学位

互联网网关设计通信协议网络控制器串行通信以太网工业控制数据传输嵌入式系统

基于数据挖掘的分布式入侵检测系统的研究

随着计算机、通信和网络技术的高速发展,全球信息化的步伐越来越快,网络信息系统成为人类社会持续发展的基础设施。人类在感受到了网络信息系统对社会发展做出巨大贡献的同时

学位

入侵检测数据挖掘DMDIDSCIDFKODS

基于SVM的中文组块间依存关系分析

句法分析是机器翻译的核心部分,而依存关系分析又是一种重要的句法分析方法,依存关系分析所成生的依存关系树即可以表示词与词之间的深层联系又可以节省存储空间。本文研究了

学位

句法分析依存关系组块支持向量机

Hydra：基于CPU-GPU结合体系架构的多种并行错误检测

随着计算机技术的发展,我们已经进入多核时代。为了利用多核设备带来的潜在计算能力,并行程序得到了普遍的应用。然而,并行程序执行的不确定性与并行错误的多样性也使软件调

学位

并行错误调试并行错误GPU

低莱斯因子下的中容量通信技术研究

本文主要研究了针对低莱斯因子信道特性的带内三频QPSK调制解调器的设计与实现，对调制解调器设计和实现过程中的一些关键技术做了较为全面的分析。首先研究了无线电波在地—空

学位

地—空通信分集接收相干检测

虹膜识别算法的研究

近年来，基于人体生物特征的识别技术得到了长足的发展。其中，虹膜因其具有丰富的细节和纹理独特而成为目前国内外的又一个研究热点。与其它生物特征相比，虹膜被认为是更稳定、更

学位

虹膜识别Hough变换Canny算子Legendre矩

基于互信息测度和多分辨策略的医学图像配准研究

为了充分利用不同模态的医学图像信息,需要对图像进行融合,而融合之前必不可缺的就是图像配准。图像配准是医学图像处理中的关键技术,对医学图像处理技术发展具有十分重要的

学位

医学图像配准互信息粒子群算法差分算法Powell算法多分辨率

J2EE应用服务器架构设计和EJB容器的实现

Internet技术发展加快了基于网络的企业应用系统的设计和开发,传统的Client/Server方式已经不能适应当前快速易变的商业发展的需要了。而J2EE技术正是基于Internet上Web技术

学位

分布式计算应用服务器EJB服务器EJB容器

医学图像数据挖掘关键技术的研究

多媒体数据获取和存储技术的飞速发展导致了大规模多媒体数据库的出现。多媒体数据的类型多种多样，包括图像、文本、视频、音频等等。对这些多媒体数据进行挖掘分析，能够揭示出

学位

医学图像多媒体数据图像挖掘聚类算法关联规则

基于BSP模型的分布式图计算系统性能优化研究

其他学术论文