基于MapReduce的并行图序列社区挖掘算法研究

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:libingyao2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为数据挖掘的重要研究方向,图序列社区挖掘在社交网络等实际问题中有着广泛应用。如何精确地获得图序列中有价值的信息,以及如何加快算法在大规模数据集上的速度尤为关键。现有社区挖掘方法大多基于树状图记录的分裂算法或自底向上的凝聚算法,且多为静态挖掘而无时间方面的考虑。针对上述问题,本文提出基于编码代价的图序列社区挖掘算法GSCM,并设计出基于谱聚类的GSCM-SC算法,在Hadoop MapReduce并行计算框架下对后者进行并行化研究提出了PGSCM算法。本文研究二值图序列,首先提出了编码代价的概念,通过优化此代价函数提出GSCM算法。算法不需任何参数,并借鉴最小描述长度原理使社区划分的复杂性与社区结构的质量达到平衡。将信息压缩后再聚类以获得较好的初始划分,并利用遗传算法的随机演化和择优思想来避免被困于局部极小值。根据新图对编码代价的影响,及时判断出社区结构的变化。并在实际数据集上验证了GSCM的有效性。而后基于谱聚类提出GSCM-SC算法,并对其性能瓶颈进行并行化提出并行图序列社区挖掘算法PGSCM。利用相似度矩阵数据点间的独立性对其并行化;利用Lanczos方法解决图拉普拉斯矩阵特征向量计算的并行化;利用K-Means计算数据点与聚类中心距离及迭代的独立性对其并行化。并用多台虚拟机构成机器集群来搭建Hadoop平台,验证算法在真实数据集上的有效性及其性能提升。最后,初步探索了图序列社区挖掘灰度方面的问题,为今后提供了很好的研究方向。
其他文献
当前各个领域的多媒体和CG技术的快速发展,图像的渲染被广泛应用在电影里的动画设计制作、游戏画面静态及动态的特效上,而且随着越来越多有关图像形成方面的技术需求也越来越
并行磁共振成像(parallel magnetic resonance imaging,pMRI)技术是近十几年来MRI领域的一次革命,该技术利用放置在被检体周围的多个接收线圈来同步探测磁共振信号,并通过减少梯
目前国内外城市的公共交通均以地面交通为主,随着经济的快速发展,交通拥堵现象和日益增长的交通事故引起了国内外社会的广泛关注,为此越来越多的学者开始研究智能交通。智能交通
本文是以全国计算机信息高新技术考试(OSTA)为背景,开发相应的在线考试系统项目,结合办公自动化应用技能水平测试需要,利用教学单位现有教学资源,使用计算机技术和网络自主设
Web2.0的兴起吸引了越来越多的因特网用户,电子商务和论坛在这一平台上得到了长足的发展。在线购物网站和产品论坛中积累起海量的产品评论。产品的潜在用户希望从中获取有价
集合选择是分布式信息检索过程中的重要一环,其在尽量不影响检索效果的情况下,选择和查询相关度高的部分集合进行检索。目前大多数集合选择算法根据主要通过集合的静态统计信息
最近几年,我们可以看到,社区问答系统中的用户数量正呈现出高速增长的态势。社区问答系统给用户提供了一个发布问题以及寻找答案的平台,而这个广大的平台中所包含的海量的问
近年来,我们进入了数据爆炸时代,随着数据的增长以及数据存储能力的增强,使得我们可以获得形式各异的数据源并将其存储于信息库中。通过对信息库中存储的数据进行分析挖掘,可
自动信任协商是通过协商机制来实现开放式环境中陌生方之间的信任建立。协商机制的核心内容包括访问控制策略和协商策略,现今它们存在的主要问题有:访问控制策略规则过于复杂可
随着网络的普及,越来越多的人们使用网络这个平台保存和获取数据,实现了知识的共享。然而,这种共享所面临的困难是如何在海量的数据中快速而准确的查询到自己所要的知识。问答系