超大规模社交网络中基于结构与主题的社团挖掘

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:wd070703332
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社团挖掘作为复杂网络分析中的一个重要方法,近年来越来越多的研究者将其应用到社交网络分析、万维网服务、网络可视化等具体问题中。目前许多社团挖掘算法复杂度高,难以处理大规模网络,本文利用Graphlab平台分布式实现社团挖掘算法以适用于大规模网络分析。本文的主要工作包括如下三个方面:(1)提出了基于初始社团和可信度的改进标签传播(LPA)算法。传统的标签传播算法在Graphlab平台上存在不收敛和划分不稳定等问题。为了解决这些问题,本文从如下两个方面对LPA算法进行改进:首先选择网络部分节点作为中心节点,将中心节点及其一阶邻居初始化为同一社团,从而大幅降低了标签传播算法的初始社团数目;然后为网络中每条边定义一个可信度,可信度越高表明邻居节点的标签越可信,在标签传播过程中根据可信度改进随机选择策略。在仿真网络和真实网络上,对改进LPA算法进行了测试,实验表明改进LPA算法的划分结果更加稳定和准确。(2)在BIGCLAM算法基础上提出了结合网络拓扑结构和用户主题信息的社团生成模型。web 2.0技术催生了大量用户生成内容的网络(如Facebook、Twitter、GooglePlus),用户在这些网络上留下了大量主题信息,本文将这些信息引入到社团挖掘中。在社团生成模型中,假设社团生成了网络连边和节点主题,进而建立网络的似然函数,利用邻接矩阵和节点主题极大化似然函数,最后得到节点所属的社团。在主题社交网络上对社团生成模型进行测试,实验结果表明引入主题信息对社团划分性能有所提升。(3)在由4台普通PC组成的Graphlab集群上实现本文改进的算法,并对比分析了算法在Graphlab集群上的性能。实验结果表明算法在Graphlab集群上取得了较高的加速比。本文的社团生成模型输入参数为网络的社团数目,而社团数目通常是未知的,虽然可以通过不断迭代求得网络最有可能的社团数目,但计算开销很大。因此将社团生成模型改造为无参数算法是下一步需要研究的工作。
其他文献
二叉判定图这种数据结构主要用来表示逻辑表达式,而现在人们已经研制了一些表示方法:比如二叉判定树、真值表、卡诺图等等,但是对于这些表达方式而言,存储空间的需要比较大,
随着信息社会的快速的发展,流媒体技术在互联网媒体信息传播方面使用的越来越广泛。然而,随着流媒体的快速发展,流媒体文件的版权保护成为急需考虑的问题,引起各方面的重视,
与传统C/S模式相比,P2P模式致力于高效合理地组织和利用Internet 边缘上大量分布的计算、存储、通信、信息等资源,在充分利用节点资源、提高系统可扩展性等方面具有巨大的潜力
学位
近年来,随着数据存储技术的飞速发展,各行各业均积累了宝贵的海量数据。那么如何高效利用“沉淀数据”辅助决策制定,进而推动经济社会发展业已成为亟需解决的问题。数据挖掘
网络的迅猛发展,网络的开放性以及日益强大的计算机技术的发展,改变了很多行业的工作模式,也改变了人们的生活,娱乐,学习模式。与此同时,各种网络攻击、病毒以及信息窃听等网络安全
随着信息技术的高速发展,基于免疫原理的入侵检测系统的研究已经成为网络安全问题的研究热点。本文首先论述了入侵检测系统的概念、发展现状及发展趋势、入侵检测的模型和分
随着Internet的飞速发展,网络中包含着海量可以被利用的数据。其中由Web数据库返回并根据预定义模板展现在用户响应页面中的数据记录,是一类非常重要的Web数据类型。这类记录
调查显示,在因特网的流量中,有超过50%的流量来自于P2P软件的使用。P2P的广泛使用造成了网络带宽的巨大消耗,甚至会引起网络拥塞,大大降低了网络性能,劣化了网络服务质量。 本文
我们对Web应用程序中(以JSP为例)由于引入内置对象和动作标签后引发的数据流进行了研究,在对数据流研究的基础上建立起函数级、函数群级、对象级,对象群级的测试模型,并分别