大规模图数据挖掘系统FastMiner

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:soboy1759
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图是一种较为复杂的数据结构,在计算机科学中,图是由顶点和边构成的集合。在实际的生活中,常使用图数据结构来描述数据间的关系。诸如网页之间的链接关系,蛋白质分子的组成,社交网络关系等,都是通过图数据结构的形式呈现。作为数据挖掘领域中的一部分,图数据挖掘在这些年引起了广泛的关注。随着图数据规模的不断增大,用户需要一个系统用于对图进行管理和挖掘。因此,如何设计一个高效的图数据挖掘系统,已成为当下研究的重点。近年来,不断有大规模图数据挖掘系统被发布,但这些系统在对图数据的重定序方面,存在着顶点之间关联度不强的问题;在存储方式方面,存在着消耗空间较大的问题;在访问方式方面,存在着随机访问较多和中间结果庞大的问题。总体上看,大规模图数据挖掘系统仍有较大的优化空间。大规模图数据挖掘系统FastMiner,是一个能够高效处理大规模图数据的系统。该系统提出了先BFS后DFS的划分算法,通过广度优先搜索(BFS)生成BFS遍历树,然后对这棵BFS遍历树进行深度优先搜索(DFS),根据DFS的顺序对每个顶点进行重排。这种重定序方法增强了相邻顶点之间的耦合性,为之后对图数据的存储和访问打下坚实基础。由于图数据的规模较大,若将其用传统的邻接矩阵或邻接表结构存储,将消耗大量的存储空间。基于此,FastMiner采用了压缩稀疏行(Compressed sparse row,CSR)作为存储结构,在图数据规模较大的时候,这种存储结构能有效节约了内存资源。最后,在图数据挖掘的过程方面,FastMiner提出了拓展-过滤(ExtendFilter)查找模型。该查找模型分为拓展(Extend)和过滤(Filter)两个部分,先用DFS的访问模式将数据图中的顶点拓展为楔形体(Wedge),然后对这些楔形体进行同构检测,保留符合条件的结果。最后,通过BFS的挖掘模式经过多次迭代之后,可从数据图中找出用户需要的子图。这种查找模型,抛弃了以往图数据挖掘系统所采用的完全BFS的数据访问方式,转而使用了DFS和BFS相结合的访问顺序。这种数据访问方式能够有效减小中间结果的数量,同时将随机访问的频率控制在一个较小的级别。FastMiner对百万级别的图数据进行了多种算法在时间性能上的测试,该系统在三角形计数算法(Triangle Counting)的耗时上相比于Rstream减少了约33%,在模体计数算法(Motif Counting)和频繁子图挖掘算法(Frequent Subgraph Mining)上更有突出表现。实验表明FastMiner在时间性能上相比于Rstream有所提升。
其他文献
随着信息技术的快速发展,数字化办公加速普及。传统的纸质公文渐渐成为现代办公效率的瓶颈,电子公文成为了传统公文在数字化时代的替代物,其相关研究、应用和规范日益增多。为保障电子公文实际使用中的安全性和效率,对电子公文交换系统进行研究十分有必要。首先根据电子公文应当具有的实时可用性、真实性、安全性、权威性等特性,对系统的功能需求和非功能需求进行分析。接着对系统进行详细设计,结合无证书签名方案以保障电子公
学位
近年来,中国的高速铁路蓬勃发展,在世界上名列前茅,通过高速铁路出行也已经成为百姓习以为常一种出行方式。为了提高高速列车上的服务质量,让人民能够享受一个现代化、高科技化的旅途,本课题将以深度学习为基础的计算机视觉技术等和高速列车结合起来,致力于为乘务员和乘客提供更好的科技体验。本课题致力于旅客服务之一的行李服务,致力于解决列车上行李误拿、行李漏拿等问题。为了实现智能化的行李服务,本课题采用了基于YO
学位
随着社会的发展,环境污染、生活习惯、流感病毒等种种因素使得呼吸疾病的发病人群日益年轻化,由呼吸疾病引发的死亡率在城市中死亡率占据第三位,在农村中甚至占据首位。每个人的呼吸特征基本相同,呼吸的普适性是人们得以对其进行研究的基础。监测呼吸能为健康监测提供很有参考价值的数据,使医生能更有效地诊断病情,咳嗽作为一种特定的呼吸特征,对各种病情的诊断有很高的参考意义,当前的研究大多结合语音识别领域中的常用的端
学位
随着国内经济水平的快速发展,人民的生活水平不断上升,各类企业的生产规模不断扩大,社会各处对电能的需求量也越来越大,同时电力系统的管理与调度也面临新的挑战。负荷预测是实现电力系统的管理与调度的基础性工作,潮流优化也是其中的重要一环。因此实现对未来负荷分布和大小的准确预测与实现潮流的最优化对电力系统的管理与调度具有重要意义。为了实现准确的时空负荷预测,提出了一种基于图神经网络与循环神经网络的时空负荷预
学位
在计算存储分离数据库中,数据库的输入输出(Input/Output,IO)瓶颈转向计算节点与存储节点之间的网络IO和存储节点的磁盘IO。缓存技术用来平衡CPU与IO之间的处理速度鸿沟。由于不同负载对缓存的需求不同,一成不变的缓存配置在不同负载下会存在影响性能和浪费资源的问题,因此需要根据不同负载对计算存储分离数据库中各节点的缓存进行参数配置,从而在合理利用资源的基础上提升节点提供服务的能力。通过对
学位
随着视频数据量的爆炸式增长,通过深度学习算法进行视频的分析渐渐变成了热门方向。本课题基于云服务构建了一套监控视频的分析系统。对视频分析的核心算法的处理主要有两个步骤。首先针对模型训练阶段,其中很多步骤需要人工干预,同时依赖专家经验。而自动机器学习可以使这些步骤自动的完成,同时得到性能良好的模型。本课题基于NNI的自动机器学习工具进行模型的自动超参数调优,同时在模型的推理阶段,基于Triton In
学位
随着航天技术和计算机技术的发展,遥感技术实现了蓬勃发展的趋势,怎么样对海量的遥感图像进行处理并且从中获取有效的信息,已经成为遥感领域的核心问题。在遥感领域中,对遥感图像的有效地物分割是遥感技术研究的基础,也是领域中的热点问题,因此从遥感图像中得到有效地物分割结果图是遥感技术发展的重中之重。基于深度学习的地物分割方法能够提取遥感图片中定位信息和语义信息,从而对遥感图片实现端到端的地物分割。采用深度学
学位
基于图像的三维重建是计算机视觉领域的一个重要研究方向,而多视图立体视觉作为其中最为高效鲁棒的方法,得到了非常广泛的研究。传统的多视图立体视觉通常可以重建出精度较高的模型,但是依赖于手工设计的特征描述子与代价函数,这难度较大并且处理效率通常不高。最近,一些基于深度学习的多视图立体视觉方法也展现出可以与传统方法相比较的重建质量。但是由于模型的复杂性,目前这些方法生成较低分辨率深度图的同时占用大量的显存
学位
随着科学技术的发展,人脸三维重建技术在计算机图形学领域越来越重要,该技术在人机交互、电影、3D游戏等领域有着广泛的应用。在虚拟人物的面部动画中,如何使人脸口型动作和语音保持同步一直是研究热点。为了重建出语音对应的口型,需要进行语音特征分析,口型特征分析和口型重建等过程。传统方法在重建口型时,无法在保证匹配精度的同时兼顾制作效率,这使得良好的口型动画制作过程效率低且成本高。本文对三维人脸的语音和口型
学位
随着现代社会计算机的不断发展,全行业信息化数字化进程的不断推进,图数据的规模也在不断增长。在如此庞大驳杂的图数据中如何提取有用的信息即图挖掘则具有着重要的意义。并且,社交网络的兴起也促使图数据内各种社区的形成,而在其中挖掘出具有特定特征的社区,很多情况下更是NP难问题,不易设计出高效算法。同时,图数据内,时态图因其特殊的时间属性,逐渐代替传统的普通图,成为了社区搜寻领域活跃的研究对象。极大持久社区
学位