大规模图数据退化度计算算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:snowlhj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,大规模图数据管理与挖掘已经成为了当前学术界和工业界的研究热点。在大规模图数据中,通常都包含连接紧密的社区结构。从大图数据中搜索连接紧密的社区结构具有重要的科学价值和广泛的实际应用。当前主流的社区搜索技术主要包括基于极大团的社区搜索和基于k-核等稠密子图模型的社区搜索。这些算法的效率通常都依赖于图的退化度(Degeneracy)度量。退化度是一个用于度量网络稀疏性的一个重要指标,设计一个快速的退化度计算算法可以大幅度地优化极大团枚举算法。此外,退化度还是最稠密子图问题的一个二近似解,同时也是经典图的“荫度”(Arboricity)的二近似解,其中荫度也是度量图的稀疏性的一个重要指标。很多网络分析算法,比如极大团枚举、三角形枚举、truss分解等,在退化度较小的图中运行的效果都非常好。鉴于退化度的重要应用,本文研究了大规模图数据的退化度计算算法。提出了一种基于二分搜索和节点削减技术的半外存(semi-external)算法。该算法只需O(n)的内存空间来计算大规模图数据的退化度,其中n表示节点的数量,因此该算法可以适应于超大规模的图数据。并且,本文还将这一半外存算法应用于求解大规模图数据的k-峰(k-peak)分解问题,从而得到了一个快速的半外存k-峰分解算法。此外,本文还提出了一种面向动态图数据的、高效的、半外存的退化度维护算法。最后,本文在真实图数据集上进行了大规模的实验测试,实验结果验证了本文所提算法的有效性和可扩展性。具体地、我们系统地分析和计算了150个真实图数据的退化度,这是首次系统地计算几乎所有公开的大型图数据的退化度,这些计算结果可以为设计高效的图数据挖掘算法提供有价值的实践参考。此外,在这些数据集上,本文还测试了动态维护算法的性能。例如,在拥有9.3亿个节点和133亿条边的GSH网络中,本文所提出的半外存退化度维护算法平均只需0.1毫秒就能完成退化度的动态维护,而之前最好的算法则需要0.1秒,本文的算法要比之前最好的算法快近3个数量级。最后,本文还测试了我们所提的算法在计算k-峰分解问题上的性能,其实验结果表明我们的算法可以计算超大规模图数据的k-峰分解。
其他文献
随着信息技术的飞速发展,人们对无线通信中信息传输的完整性和安全性有了更高的要求,而混沌数字键控技术能够在一定程度上满足保密通信的要求。差分混沌移位键控(Differentia
随着计算机行业的不断发展,软件系统规模不断增加,人类工作生活的各个方面都越来越依赖于各种软件系统。然而软件安全问题长期困扰着人们,怎样有效保障软件系统的可靠性是一
随着物质生活不断得到满足,人们的目光越来越多地开始关注自然环境和社会关系的永续发展,并且开始认识到女性与男性一样具有发展和获得地位的权利,国内学者依据对中国国情的
硼化学是当今化学中一个非常重要的版块。近十年来有机硼自由基的发现解决了传统方法制备有机硼化合物存在反应选择性差、条件严格、以及官能团难兼容等诸多缺点。然而,硼自由基前体的种类很少,且人们对于它们的结构和性质缺乏认识,另外,硼烷的特殊结构导致了硼氢键的解离能(BDE)很大,因此,很难发展简单的硼自由基前体,实现在温和的条件下构建碳-硼键。计算表明N-杂环卡宾硼自由基中BED能远小于硼烷,这使得N-杂
随着工业互联网的迅速发展,IPv4协议已经无法满足工业现场海量设备接入对地址的需求。IPv6(Internet Protocol Version 6)作为下一代IP协议,为IP网络与工业网络的无缝连接提
手势识别是人机交互(Human-Computer Interaction,HCI)的热点研究问题之一,在虚拟现实、机器人遥控、智能驾驶、办公辅助、游戏娱乐和手语识别等领域应用前景十分广阔。随着
Inconel 718(IN718)是一种Ni-Cr-Fe型高温合金,主要应用于航空、航天发动机中涡轮叶片的制作。目前,该合金主要采用铸造、锻造和粉末冶金法制备,这些方法制备温度高,存在合金晶粒粗大的问题。相比于铸造、锻造法,粉末冶金法制备的高温合金力学性能更为优异。但是采用粉末冶金法制备IN718合金烧结时间长,且都需要固溶处理后再进行时效处理。本论文针对传统烧结方法中制备周期长的问题,提出了采
理解历史森林数据并从中学习以便避免过去的错误是迈向成功管理森林的重要一步。森林经营中缺乏有关历史数据的信息,会导致森林经营者做出不当的管理决定。能够保留历史森林
在解决视觉分析问题时,一般的深度学习方法从训练数据中学习输入空间到解空间的函数映射,忽视了和任务相关的先验知识,因此深度学习方法大多受限于训练数据,易出现泛化能力不
双支持向量机(TSVM)是基于支持向量机(SVM)上提出的一种新型机器学习方法,具有良好的学习性能,目前已成为机器学习领域的研究热点。TSVM常用于解决分类和回归问题。对分类问题而言,双支持向量分类机(TSVC)目的是寻找一对非平行的分类超平面;对回归问题而言,双支持向量回归机(TSVR)旨在训练样本点的两侧产生一对非平行的回归超平面,用于分别确定回归函数的不敏感上下界函数。为了简化TSVR的计算