【摘 要】
:
随着以互联网、移动互联网、物联网为标志的信息技术的飞速发展,信息数据量呈爆炸式增长,大数据处理技术得到了越来越广泛的应用,分布式图计算也在社交网络、电子商务、推荐
论文部分内容阅读
随着以互联网、移动互联网、物联网为标志的信息技术的飞速发展,信息数据量呈爆炸式增长,大数据处理技术得到了越来越广泛的应用,分布式图计算也在社交网络、电子商务、推荐系统等领域有着重要的实际应用。Hadoop因其良好的可靠性与扩展性,成为了构建大数据生态系统的核心组件。Hadoop在图计算、机器学习等需要大量迭代式计算方面表现差劲,无法满足大规模的图计算需求,而基于BSP模型的图计算框架弥补了Hadoop的不足。Apache Hama是一个基于BSP模型的图并行计算框架,因其发展时间短,图计算预处理技术还需要改进。Hama的预处理流程无法满足规模庞大、结构复杂的图数据处理。Hama预处理流程中未对图数据进行均衡操作,数据分片机制存在缺陷。本文的目的是提出一种基于BSP模型的图计算预处理技术,弥补Hama预处理技术的缺点,改进预处理流程中的数据分片技术,提高集群资源的利用率,使得图预处理适应多种应用场景的需要。本文的主要工作与贡献如下所示:本文深入分析了现今主流的分布式图计算框架及其发展趋势,重点研究了Hadoop与Hama框架,分析介绍了Hama与Hadoop中使用到的HDFS与MapReduce的架构与工作原理。文中对Hadoop与Hama的图计算预处理流程进行深入对比,介绍了图预处理流程中的数据分片机制的不同,同时分析了Hadoop与Hama图计算预处理流程中数据分片技术存在的缺陷。在上述研究成果的基础上,提出了一种基于BSP模型的图计算预处理技术,详细介绍了预处理技术的系统架构与功能流程,并在Hama框架中予以实现,改进了Hama框架的数据分片机制,增加了大顶点处理技术来做图均衡操作,降低同步开销。最后,对基于Hama框架的图计算预处理技术进行稳定性测试、功能性测试以及性能对比实验。经过对实验数据以及实验结果的分析,表明基于BSP模型的图计算预处理技术很好地解决了图计算预处理中存在的问题,达到了预期的效果,提高了集群资源的利用率,为不同的应用场景提供了灵活性。
其他文献
科研项目管理是一项系统工程,随着信息社会的发展,信息技术在管理上越来越深入而广泛的应用,信息化建设已成为经济和科技发展的一项重要的战略任务,而管理信息系统的实施在技术上
随着高清数字电视、智能手机等信息家电的迅速普及,信息家电设备的网络互联被迫切需求。针对家庭网络的不同需求,各种组织纷纷提出了针对不同服务的协议,其中UPnP协议因其协
随着计算机网络技术的飞速发展以及数字信息资源在各个领域的迅速普及,建立标准统一、符合国际规范的网络安全基础资源平台已经成为网络安全信息共享的重要工具。当前各国政
随着计算机的飞速发展,教学系统软件得到了广泛的应用与发展,实现了现代化的教学方式。同时,由于高校实行扩招,学生的人数增加很快,这就需要配备相应的教师队伍。为了保障教
计算机网络安全是一门以理论为基础,以实际操作为主要内容的大、中专学校普遍需要开设的课程。由于资金和设备的原因,各个院校对于计算机网络安全这门课程的实验还不能给予应有
由于视频编解码技术会造成一定程度的图像失真,因此,如何评价视频码流的图像质量是数字视频编码技术首要面对的问题。所有视频质量评价方法中,计算重构视频和原始视频的峰值
互联网的普及使用以及电子商务的发展让用户可以享受电子商务系统提供的越来越多的服务,随即而来的是信息的急剧膨胀,“信息过载”、“资源迷向”等问题相继出现,大量的信息经常
近年来,信息技术高速发展,数据采集和存储技术不断进步,无论企业、科研机构、政府机关等都积累了大量且结构复杂的数据。在获得海量数据的同时,如何从中快速、有效地提取有价
基于Pareto最优概念的多目标遗传算法是处理多目标优化问题的一个重要算法。遗传算法的机理很适合多目标优化,因为遗传算法可以在一代模拟过程中找到多个Pareto最优解,通过适
电能作为一种经济实用、清洁方便且容易控制和转换的二次能源,已成为全世界经济发展及人民生活的重要基础。与此同时,我们看到当代电力系统的电网和负荷构成出现了新变化。一方面,电力网络不断扩张,计算机技术、通信技术和电力电子新技术(FACTS:TCSC、SVC、HVDC、Cus-Pow)在电力系统的应用,使得对系统可靠性要求更高。另一方面,高科技含量的器件、设备与技术(如微电子技术、计算机技术、电力电子技