论文部分内容阅读
社区发现(Community discovery)作为数据挖掘领域的重要研究方法,可以实现对网络中隐藏信息的挖掘。在产品推荐、广告投放和舆情监测等方面有着重要的研究价值。但目前大部分社区发现方法的研究,都是在同质网络(Homogeneous Network)中展开的,即将网络中所有节点都定义为同一种类型。然而,实际生活中大多数网络都是异质网络(Heterogeneous Network),即网络中的节点和边都是多类型的。近年来,异质网络受到了越来越多的学者关注,原因是异质网络与实际网络相符合,但异质网络中多类型的节点和链接关系使网络变得异常复杂,同时也为社区发现方法的研究带来了巨大挑战。由此,本文针对异质网络社区发现方法进行了深入的研究。其主要研究内容有:1、构建能够表示异质网络的模型并对模型中的节点进行处理;2、提出一种改进K-means的社区发现算法。1、异质网络模型构建及模型中节点的处理:首先使用超图建模,超图模型可以把不同类型节点、不同语义的边表达在一个网络中,从而表示异质网络中的多类型节点及复杂关系。此外,在超图模型中使用DeepWalk网络表示学习算法,将超图表示的异质网络节点进行低维向量的空间表示。2、改进K-means的社区发现算法:K-means算法作为经典的社区发现算法其应用非常广泛,且思想简单易懂,容易被人们掌握和学习,同时算法的编程实现容易理解,因此得到了众多学者的广泛应用。但同时K-means算法对初始聚类中心十分敏感,依赖性大,传统的K-means中聚类中心的选取是随机的,容易造成社区划分局部最优和划分结果不准确等问题,由此,本文提出一种基于密度基尼系数的聚类中心选取方法,通过计算节点的局部密度进行初始聚类中心的选取。本文在异质网络真实数据集DBLP和Aminer下进行实验,并使用NMI和Precision作为算法的评价指标,将改进的K-means算法与其它基于异质网络的社区划分方法做对比,实验结果表明,改进的K-means算法在评价指标NMI和Precision上均有所提升,仿真实验验证了改进的K-means算法可以处理异质信息网络。与此同时,将本文提出的算法与传统的K-means算法相比,无需迭代就可以获取聚类中心,降低了算法的复杂度。最终,通过实验验证,改进的K-means算法可行、有效。