异质信息网络中社区发现方法研究

来源 :内蒙古科技大学 | 被引量 : 0次 | 上传用户:niuniu31
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区发现(Community discovery)作为数据挖掘领域的重要研究方法,可以实现对网络中隐藏信息的挖掘。在产品推荐、广告投放和舆情监测等方面有着重要的研究价值。但目前大部分社区发现方法的研究,都是在同质网络(Homogeneous Network)中展开的,即将网络中所有节点都定义为同一种类型。然而,实际生活中大多数网络都是异质网络(Heterogeneous Network),即网络中的节点和边都是多类型的。近年来,异质网络受到了越来越多的学者关注,原因是异质网络与实际网络相符合,但异质网络中多类型的节点和链接关系使网络变得异常复杂,同时也为社区发现方法的研究带来了巨大挑战。由此,本文针对异质网络社区发现方法进行了深入的研究。其主要研究内容有:1、构建能够表示异质网络的模型并对模型中的节点进行处理;2、提出一种改进K-means的社区发现算法。1、异质网络模型构建及模型中节点的处理:首先使用超图建模,超图模型可以把不同类型节点、不同语义的边表达在一个网络中,从而表示异质网络中的多类型节点及复杂关系。此外,在超图模型中使用DeepWalk网络表示学习算法,将超图表示的异质网络节点进行低维向量的空间表示。2、改进K-means的社区发现算法:K-means算法作为经典的社区发现算法其应用非常广泛,且思想简单易懂,容易被人们掌握和学习,同时算法的编程实现容易理解,因此得到了众多学者的广泛应用。但同时K-means算法对初始聚类中心十分敏感,依赖性大,传统的K-means中聚类中心的选取是随机的,容易造成社区划分局部最优和划分结果不准确等问题,由此,本文提出一种基于密度基尼系数的聚类中心选取方法,通过计算节点的局部密度进行初始聚类中心的选取。本文在异质网络真实数据集DBLP和Aminer下进行实验,并使用NMI和Precision作为算法的评价指标,将改进的K-means算法与其它基于异质网络的社区划分方法做对比,实验结果表明,改进的K-means算法在评价指标NMI和Precision上均有所提升,仿真实验验证了改进的K-means算法可以处理异质信息网络。与此同时,将本文提出的算法与传统的K-means算法相比,无需迭代就可以获取聚类中心,降低了算法的复杂度。最终,通过实验验证,改进的K-means算法可行、有效。
其他文献
目的:使用常用的基因集富集分析方法处理分析存在异质性和样本/病患特异性的数据集时会给分析结果引入系统误差,因此近几年有许多研究人员设计开发了一系列用于识别单个或异
模糊图像盲复原是指在不知道模糊核的情况下对模糊图像进行复原,这是一个不适定问题。由于实际生活中的模糊图像往往是模糊核未知的,因此本课题的研究具有很大的实际意义和学
近年遥感影像检索在获取大量遥感数据信息方面发挥出了越来越重要的作用,是目前研究的热点之一。然而,目前人们对于遥感的应用研究还有待于继续完善,无法准确有效的提取出有
脆性是用来评估食品质量非常重要的一个指标,能够表征其新鲜程度、口感与成熟度等。但目前评估食品脆性常常采用感官评定的方法,具有一定的局限性。而本文利用质构仪压缩食品
碎矿石的粒度信息能反映破碎机械的工作状况,通过检测这些信息,可以掌握矿石的粒度分布情况,从而帮助调节碎矿机排矿口宽度,实现碎矿粒度分布调节;同时对碎矿系统实施过程优
无线通信技术和各种智能设备的快速发展对传统无线通信网络产生巨大的冲击,如何在复杂的通信环境中保证用户的通信质量,提高用户的服务质量是亟需解决的问题。为了建立符合实
针对热点场景中流量业务需求以及超高速率、超低时延的大规模用户连接问题,第五代移动通信网络在传统技术基础上采用了毫米波、端到端(Device to Device,D2D)和超密集异构网
石油钢管在使用前需要进行多种检测,只有经检测合格的石油钢管才能投入使用,而其中,通径是检测石油钢管是否合格的必要工序之一。当前,国内石油钢管厂家在其生产线中使用人工
全球人口迅速增长,陆地资源日益短缺,世界各国越来越重视海洋资源的开发和利用。声呐图像是我们探测海洋的重要工具,单幅声呐图像像幅较小,当目标较大时,声呐系统不能一次拍
水泥作为一种非常重要的建筑基材料,在人民的社会生产及生活中占有重要地位。中国是水泥第一大生产国,但是水泥质量却达不到世界的平均水平。因此,如何结合科学方法深入研究