论文部分内容阅读
随着微博等社交网络的快速兴起,社交网络的研究成为了一个热点课题,如何更加充分的利用现代网络工具快速发掘网络中信息是一个重要的方向。基于图挖掘的网络中节点聚类一直以来都是大规模网络数据分析中重要的研究课题之一,众多研究者在网络社区的发现方面已经取得不少研究成果,但仍然存在许多问题有待解决:算法的效率不高、很少关注重叠的社区结构、不能排除噪音干扰等。信息可视化技术的发展为人们理解网络结构数据并进行有效的挖掘提供了很有效的途径,但对于大规模社交网络传统的可视化布局并不能清晰的展示。针对这些问题,本文以Spark为平台,利用图挖掘,对社区网络展开了社区发现及可视化的研究,具体内容如下:(1)设计基于网络边图的社区发现算法及其并行化。针对GN算法不能发现重叠社区和其复杂度较高的问题,将网络图转换为边图,用边图中节点的相似度替代GN算法中的边介数,改进GN算法,并且利用MapReduce模型,对该算法进行并行化处理,提高其执行效率。(2)提出了基于用户影响力的社区发现算法及其并行化方案。针对基于局部模块度的社区发现算法[26]不稳定问题,借鉴PageRank算法思想,研究社交网络中用户影响力,将影响力大的用户作为初始社区节点,使得社区划分结果稳定且更为准确,并研究了基于用户影响力的社区发现算法的并行化方法。(3)设计基于MapReduce的力导向布局算法。分析串行的力导向布局算法,结合Spark内存计算框架,实现了该算法的并行化,加快网络布局。(4)提出了一种基于社区结构的社交网络可视化方法,该方法将社区结构与力导向布局算法进行结合,改进力导向布局算法,在每个社区进行单独布局,最终得到整个网络的布局,使之可以用于规模较大的社交网络可视化布局。本文的创新点:将用户影响力与局部社区发现算法结合,提出基于用户影响力的社区发现算法,避免了局部社区发现算法的不稳定性,提高了其划分社区的准确性。