基于应用运行特征的图数据布局与访问优化研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mail1631987
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图是一种很重要的非结构化数据,可以用于建模现实世界中的各种问题,被广泛应用到交通运输、金融、社交网络等重要领域。但由于图计算过程中严重的结构依赖性,导致应用执行时内存随机访问严重,内存带宽成为限制图计算系统性能的重要因素。并且不同类型图算法的内存访问特征差异明显,单一的内存图数据组织不足以应对各种图算法多样化的内存访问需求。针对上述问题,分析了常见图算法的动态运行特征和内存数据访问特点,将图算法分为遍历式和迭代式两类,研究不同运行特征下的高效的图数据组织策略。对于遍历式图算法,通过分析其运行过程,发现同一个顶点和不同邻居节点之间存在关联度的大小差异,对邻居节点的访问顺序是影响算法运行过程中缓存命中率的重要因素。基于此提出了基于关联度的图顶点重映射算法GDL-VC,并采用滑动窗口模型SW实现了内存图数据的合理布局。该布局结果能够体现出图的结构特性,使相关联的顶点ID分布呈现局部有序,减少图算法运行过程中的内存随机访问。对于迭代式图算法,通过分析其算法收敛特性,发现图结构中“超级顶点”长时间不能达到收敛状态而造成了迭代式图应用的长尾现象。针对于此,提出了基于影响力的图顶点重映射算法GDL-DR,该布局算法根据顶点的影响力(顶点度)完成图数据的布局。这样在图算法迭代后期,活跃顶点集执行状态更新时,与之相关联的邻居节点紧凑分布,可以减少内存随机访问,使顶点更快的达到收敛状态,缩短应用执行时间。测试结果表明:GDL-VC布局算法能够给遍历式图应用(连通分量、单源点最短路径)带来25.4%、27.5%的平均内存访问效率提升,部分数据集超过50%;GDL-DR布局算法能够给迭代式图应用(网页排名、标签传播)带来23.9%、17.1%的平均内存访问效率提升,最大提升百分比为42.9%。对于GraphChi测试平台,两种布局算法带来的系统加速比均达到1.5×以上,部分图数据超过2×;Cache命中率提高到90%以上。
其他文献
20世纪70年代以来,人类对于环境的破坏与污染越来越严重,世界对环境问题也越来越重视,很多国家通过开征环境税来约束经济个体使其减少环境污染的行为。从实施效果上来看,作为
抑郁症作为严重的公共卫生问题和突出的社会问题已成为我国和国际社会的共识,其发病机制研究是当前的热门课题。越来越多的临床和临床前研究数据表明星形胶质细胞异常是抑郁
为考察新型微生物肥料对夏玉米生长及产量的影响,在夏玉米上进行田间试验,以期为该肥料的大面积推广应用提供科学依据。
[目的]该实验的目的在于探讨多发性骨髓瘤的部分发病机制,尤其是抑癌基因(p15基因)CpG岛甲基化在多发性骨髓瘤发生发展中的作用及其在指导治疗中的意义。[方法11.收集2009年1
本调查旨在了解大学生对性传播疾病的认识程度,采用问卷调查法对山西师范大学1000名大学生进行无记名问卷调查.得出的结果主要包括:大学生性观念较为开放,对于婚前性行为和未
目的探讨"80后"外科病房护士自我效能感、工作满意度、工作倦怠感现状及三者之间的相关性。方法采用整群抽样的方法选取北京市三级综合医院167名出生于20世纪80年代的外科病
本文研究总结了环境管理学的基本知识,包括环境与环境问题的概念和含义,环境管理的内涵、目的、性质、类型、手段、职能、方法、制度以及环境战略、环境标准和环境规划管理等
“生态型”领导力既是新形势下领导者科学、有效领导的基石,更是弥补领导者个体能力不足,充分调动被领导者积极性、增强组织活力的法宝。本文阐释了“生态型”领导的内涵,分
自我怜悯指同情自己的遭遇,去体验对自己关怀和友善的感受,以理解,非批判的态度对待自己的不足和失败,同时认为自己的经历是所有人都会经历的一部分。自我怜悯和个体心理健康水平
介绍安全文化在骨科病房护理管理中的应用,强调提高安全意识、营造安全文化氛围,护士长、病人安全护士或项目领导、临床护士积极参加安全文化创建。