PyGel:基于DPark的分布式图计算引擎的研究与实现

被引量 : 0次 | 上传用户:vialli_7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着“大数据时代”的到来,各种处理海量数据的技术应运而生,其中以Hadoop为代表的传统MapReduce模型正在逐渐成为行业的标准。然而,本质上,MapReduce模型的处理方式还是一种批处理的流程,所以,并非所有结构的数据都能高效的在传统MapReduce模型上进行处理,尤其是具有图结构类型的数据集,这就需要一种可以高效处理该类数据的计算模型。本文首先简要讨论了一种分布式迭代计算模型。通过对DPark(一种分布式迭代计算框架,由豆瓣公司开发,是Spark的Python版本,并加入自身特色)的研究,了解其工作原理以及核心技术RDD(弹性分布式数据集)。其次,由于许多实际应用问题中都涉及到大型的图算法,比如网页链接关系和社会关系图等,这些图都有相同的特点:规模超大,常常达到数十亿的顶点和上万亿的边。这么大的规模,给需要在其上进行高效计算的应用提出了巨大的难题。对此,Google提出了Pregel图计算模型,但目前为止国内还没有完全实现Pregel的图计算引擎,所以本文主要在对分布式迭代模型研究的基础上,根据Google关于Pregel的论文,研究并实现一种高效的图计算引擎PyGel,该引擎主要使用Python开发,基于DPark这一分布式迭代计算框架,可用于类似图遍历(BFS)、单源最短路径(SSSP)、PageRank等图算法方面的计算。然后,选取代表性的PageRank这一图算法,分别在传统分布式计算模型与基于分布式迭代模型的PyGel上实现,通过对比二者的计算效率来验证最终结论,并给出相关的比较数据。最后,通过研究当前分布式迭代计算模型以及Pregel图计算模型的概念和具体实现,指出其中可能存在的不足,以及可能的改进方式,并明确以后的工作方向。
其他文献
着重介绍日本城市地下立体空间的综合利用,从地铁网络布局出发,分别阐述地铁与商业开发结合、地铁出入口设置、地铁车站平面布局、地铁换乘站建设等。针对我国众多城市大力发
研究了粉状活性炭对水溶液中低质量浓度柠檬酸络合镍离子的吸附行为,在静态吸附条件下,考察了柠檬酸络合剂质量浓度、吸附剂投加量、pH、温度等因素对粉状活性炭吸附镍离子的
目的:目前糖尿病的主要慢性并发症涉及心脏、视网膜、肾脏、足及神经都和血管损伤有关。糖尿病血管病变的发病机制主要有蛋白激酶(protein kinase PKC)的激活,糖基化终末产物的堆
随着大众传媒的普及,电视作为我国儿童接触最多的大众媒介,在极大程度上影响并改变了我国城市儿童的日常生活。国外现有研究表明,看电视食品广告的儿童比不看电视广告的儿童
目的 :对军队医科院校大学生中心理亚健康人群进行肌电生物反馈干预 ,并对干预效果进行评估 .方法 :采用康奈尔医学指数 (CMI) ,结合精神科访谈对某所军队医科大学4 12名医学
目的回顾性分析以血尿为主要表现患者的临床和病理情况,了解肾小球源性血尿与非肾小球源性血尿患者肾脏病理类型的分布及临床特点。方法回顾性分析2000~2006年间,因体检发现血
塑性变形界面广泛存在于金属塑性成形中,此时工件、模具和润滑剂构成了一个复杂的摩擦学系统。论文研究了混合润滑状态下塑性变形界面微凸体平坦化行为,以期更好地理解塑性成形
保障食品安全,责任重于泰山。食品安全对经济发展、政治安定、社会和谐以及人体健康有着非常重要的意义,国内外许多国家都将保障食品安全作为重大民生问题,不断加强食品安全保障
BT模式因能够解决政府资金紧张和引进先进的管理经验,在我国已被逐步推广,其中BT模式下工程变更的控制权和费用结算是BT双方关注的重点。阐述城市轨道交通BT项目工程变更的定
电池管理系统直接检测及管理电动车辆的储能电池运行的全过程,是电动车辆的重要组成部分。设计了一种基于超级电容电池的车载电池管理系统,通过测量超级电容电池的电压、温度