大规模图的三角形计算研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mayi2800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大数据处理受到广泛关注。以Web图和在线社交网络为代表的大规模图作为一类应用广泛的大数据,其规模在持续快速增长,给处理系统带来更高要求。在图处理应用中,图中的三角形作为衡量顶点间联系紧密程度的重要结构,是图结构分析的重要基础。相应地,三角形计算,即枚举出图中所有三角形或统计三角形数目,成为一类重要的基础算法,广泛应用于各类场景下,如检测在线垃圾信息发送行为、评估在线内容的质量、理解蛋白质作用网络等。大规模图的三角形计算的挑战,主要来自图中顶点间连接的随机性导致的随机访存占比大和分布式处理时产生的大量网络消息。
  共享内存环境下的三角形计算可避免网络消息,且可利用内存的更快速度和对随机访问的更好支持,从而使共享内存处理较之中小规模集群上的分布式处理性价比更高、实现更容易、效率更高。但单机有限的内存空间和图的巨大规模之间的矛盾严重制约了共享内存三角形计算的应用范围,从而使得图压缩很有必要,其难点在于既要保证压缩率又要不影响速度,甚至提升速度。针对此问题提出一种轻量压缩方案CIC-PIM(Chunked Index Compression for Parallel In-Memory graph processing),选用合适的轻量技术压缩非索引数据,利用大规模图中普遍存在的幂律性和稀疏性压缩索引数据。基本思路是将索引分成长度合适的块,从而带来良好的可压缩性,并用对齐到字节的定长编码压缩索引块,从而实现良好的压缩率、完全的随机访问支持、较高的缓存利用率等。相比典型的共享内存图压缩方案Ligra+,CIC-PIM实现了69%的索引压缩率,从而将整图压缩率提升了24%达到52%,同时提高了8%的处理速度。
  为了对更大规模的图进行内存处理,需要进行分布式内存三角形计算。图中顶点间连接的随机性导致大量网络消息,大幅减少甚至消除网络消息便成为最大挑战。为此提出解决方案LiteTE(Lite Triangle Enumerating),它主要包含如下技术:(1)面向内存资源的图分割,通过把图均衡地分割成合适的大子图,同时结合现有的消息合并技术,解决了大量网络消息问题;(2)三级负载均衡策略,通过子图、节点、线程三级轻量负载均衡技术,改善负载均衡的同时避免高额开销;(3)高速数据广播算法,通过所有节点间的同步收发数据充分挖掘每个节点的双向网络带宽,大幅提升数据传输速度。实验显示,相比典型的分布式三角形计算方案Surrogate、HavoqGT和PTE,LiteTE大幅减少了网络消息,改善了负载均衡效果,平均将计算速度提升了49倍,同时显著改善了扩展性。
  当图规模继续增大时,就需要采用分布式外存计算模式。除了和分布式内存计算一样存在大量网络消息问题之外,分布式外存三角形计算还存在如何缩减中间数据和高效利用集群I/O带宽的问题。已有工作因大量网络消息和中间数据、资源利用率低下而导致计算效率很低,为此,本文提出解决方案HOSA(Hold One and Shift Another),主要包括:(1)一种无重叠的图分割与放置策略,基于图的邻居列表和边列表格式,均衡分割邻居列表并根据邻居列表分割边列表,从而得到不重叠的子图,并把子图均衡的发送到各节点上,大幅减少中间数据的同时有效利用I/O带宽;(2)提出基于数据预传输的计算策略,将计算过程分成相互交错的两类阶段,包括传输阶段和处理阶段,在每个传输阶段将随后处理阶段需要的数据充分利用集群的网络和I/O带宽扩散至各节点,随后的处理阶段所需的数据便可全部在本地找到,从而避免网络消息,提高资源利用率。实验显示,相比典型的分布式三角形计算方案HavoqGT和PTE,HOSA将计算速度分别提升了6.4倍和57倍。相比分布式内存计算方案LiteTE,HOSA达到其计算速度的75%,但能处理的图规模提升了20倍。
其他文献
【摘要】由2014年高考山东省英语试题改革不难看出考试更加注重基础。根据完形填空题型的命题依据:格式塔心理学以及对完形填空题型的认识与理解,对学生处理完形填空题型时所出现的症状做了了解、分析,寻找到适用于学生的方法,指明方向,与学生共同成长,共同进步。  【关键词】高考改革 完形填空 格式塔心理学 五不要 五有心人  【中图分类号】G633.41 【文献标识码】A 【文章编号】2095-3089(
期刊
随着互联网进一步蓬勃发展,社交网络、电子商务、网上银行等网站上每天都流通着亿级的企业和用户信息,网站本身存在的漏洞会导致敏感信息的泄露,因此网络漏洞扫描至关重要。
  通过对漏洞扫描技术进行调查分析,针对其中的爬取网页部分的URL去重和漏洞扫描部分展开优化,一方面本文通过采用FarmHash算法压缩结合布隆过滤器的方式进行URL去重,减小了时间和空间复杂度,提高了爬虫爬取的速度和漏洞扫描器的扫描速度。另一方面本文使用动态链接库和插件技术设计实现了漏洞扫描库,内置八十多个漏洞扫描插件,并支持用户自定义
点击率预估是推荐系统、搜索等应用场景中的核心问题,也是互联网广告投放效果的重要指标。现代互联网广告主要分为搜索广告和展示广告,其中搜索广告是规模最大的广告形式。以搜索场景为例,用户搜索关键词寻找目标,广告平台通过获取具有商业价值的关键词,结合点击率预估结果展现用户最可能点击的广告。因此良好点击率预估模型既可以带来好的用户体验,也能让广告平台达到收益最大化。
  通过研究近年来基于深度学习的点击率预估模型,发现现今存在的很多点击率预估模型在挖掘特征之间的交叉关系上存在不足,对特征重用度不高。基于此,结
随着互联网的快速发展,数据分析系统需要处理的图规模呈爆炸式增长,使得系统的计算能力和存储能力面临严峻挑战。高效低误差的抽样技术能有效缩减待处理数据集的规模,同时保留原有数据集的主要特征,可用于可视化、查询、分析和社交网络影响力估测等,因而成为解决该挑战的重要途径。面向图的抽样技术分为两类:一类是通过产生边集样本来估测图特征的抽样技术,称为面向图边集的抽样技术;另一类是通过产生顶点集样本估测图特征的抽样技术,称为面向图顶点集的抽样技术。然而,现有的图抽样技术估测目标单一,且存在估测误差和开销大的问题,不能满
随着大数据技术的发展,存储系统对大容量、低功耗、快速内存的需求更加迫切。新型非易失存储器(Non-Volatile Memory,NVM)具有大容量、低静态功耗和读速度快的优势,未来有望取代传统的DRAM技术,用作计算机系统的内存。以相变存储器(Phase Change Memory,PCM)为代表的NVM每个单元的位翻转次数有限,并且每次位翻转能耗高,导致NVM面临寿命有限、写能耗高的缺陷。如何减少NVM的位翻转次数,提升NVM的寿命、降低写能耗是NVM内存技术研究中的重点。本文通过高效的数据编码方法来
【中图分类号】G71 【文献标识码】A 【文章编号】2095-3089(2014)09-0140-02  2014年3月6日下午,“未来课堂与创新人才培养模式实践研究项目“启动大会在清华附中召开,会上指出:传统课堂对于解决每个学生的兴趣爱好和特长及学习上的差异。课堂是教学的主阵地,未来课堂的设计事关未来的教学模式和教学环境。“未来课堂”通过中学与大学企业合作的方式,采取“模型建构——试点应用——应
期刊
数据中心为大量的应用提供基础设施服务,如网页搜索和在线推荐系统等,数据中心内部网络作为所有应用数据传输的共同载体,需要提供高带宽、低延迟等服务质量(Quality of Service,QoS)保障。由于应用对云服务性能要求的日趋严格,数据中心网络的服务质量保障面临巨大挑战。此外,数据中心服务器计算能力、存储设备数据存取能力的快速增长,也促使数据中心网络成为数据处理的性能瓶颈。因此,面对日益增长的应用需求和不断更新的软硬件设施,研究高效的数据中心网络流量管理技术,来有效保障数据中心应用的服务质量具有重要意
随着互联网时代的到来,数据规模的快速增长给存储带来了巨大挑战。磁盘凭借其容量大、价格低等优势,被广泛用于数据中心存储。然而,磁盘属于复杂的机械电子设备,维持其高可靠性很具挑战。磁盘故障预测技术对即将发生的磁盘故障进行预测,在磁盘故障发生之前,主动地对这些磁盘中的数据进行迁移,达到提高可靠性并降低维护开销的目的。但仍存在如下问题亟待解决:(1)由于缺乏故障磁盘样本,导致基于有监督分类模型的磁盘故障预测方法存在适用性受限的问题;(2)仅使用预测准确率衡量预测方法的好坏,缺少对预测错误代价的评估;(3)基于扇区
【摘要】维果茨基的“最近发展区”理论最突出的例子就是“跳一跳够得着果子”。那么,在我们的实际教学工作中,究竟应该怎样把握好这个度才能达到这种效果呢?本人结合自己的课堂教学,设计让学生“跳一跳,够得着”的教学内容,来诠释在高一数学课堂教学中如何体现这一理论的实际应用。  【关键词】最近发展区 高一数学 课堂教学 跳一跳  【中图分类号】G633.6 【文献标识码】A 【文章编号】2095-3089(
期刊
【中图分类号】G633.8 【文献标识码】A 【文章编号】2095-3089(2014)09-0186-02  练习,作为教与学互动的重要载体,对学生知识的掌握、能力的形成、兴趣的培养和个性发展均有十分重要的作用。在过去几年的化学教学中,笔者发现学生对练习的兴趣并不是很浓厚,很大程度上是因为练习可以一定程度上提高成绩才被动地应付着。枯燥无味的化学练习,会使学生疲于奔命,无法在愉悦的心境中学习并体验
期刊