论文部分内容阅读
社区发现是复杂网络分析中的一项关键任务,它有助于理解以复杂网络为代表的系统的特性,且对实际应用具有重要的意义。复杂的网络结构由节点和节点之间的关系组成,例如社会网络、协作网络、生物网络和交通网络等。复杂网络研究的主要问题之一是对社区结构的检测,这是一个一直备受关注的课题。现今,社区发现的许多研究成果已成功应用于朋友推荐、个性化产品推广、蛋白质功能预测和舆情分析与处理等领域。现实世界的网络通常由功能单元组成,这些功能单元以网络模块或社区的形式表现出来,这些子网络的节点在连接程度上相对于其他网络上的节点更加紧密。社区结构作为复杂网络的重要特性,在一定程度上可以反映网络的重要特征。因此,识别社区结构对于描述网络组织结构和理解复杂系统至关重要。社区发现致力于对复杂网络中社区结构的精确检测。但是,网络规模的不断扩大使得网络结构变得更加复杂,很多传统的社区发现方法在处理大规模复杂网络时存在一些缺陷。特别是,当使用经典聚类算法处理网络的高维数据时,社区发现方法的检测结果通常不够准确。针对这一问题,本文将深度学习引入社区发现研究中,旨在通过深度学习框架来提取高维输入数据的有效低维特征表示,从而显著提高社区发现方法的检测性能。在对社区发现和深度学习的相关理论知识进行深入研究后,本文提出两种社区发现方法:迁移学习影响下基于深度自编码器的社区发现方法(Community Detection Method based on Deep Autoencoder under the Influence of Transfer Learning,Transfer-CDDA)和基于集成聚类框架的社区发现方法(Community Detection Method via Ensemble Clustering Framework,CDMEC)。通过在不同数据集上的大量实验来验证本文提出的方法具有一定的可行性和有效性,并对比几种现有的社区发现方法进一步验证算法的良好性能。本文的主要工作如下:1)提出迁移学习影响下基于深度自编码器的社区发现方法(Transfer-CDDA)。该方法首先进行复杂网络原始数据的相似性处理操作,即邻接矩阵到相似性矩阵的转换。该操作是受节点间关系表示的启发,而提出了一种有效的网络邻接矩阵变换方法来描述网络拓扑结构中节点间的相似性;然后通过基于深度自编码器框架(Community Detection Method based on Deep Autoencoder,CDDA)进行特征提取操作,从而获取复杂网络的有效非线性特征表示;最后为了进一步获取更强大的特征表示,通过最小化嵌入实例的Kullback-Leibler(KL)散度将迁移学习模型引入CDDA中(简称Transfer-CDDA),以确保在学习低维表示时,不同域之间的差异可以近似相等。同时也提出了一种新的训练策略,即目标域和源域在深度自编码器的编码和解码训练过程中共享相同的参数并利用随机梯度下降的反向传播方法对提出的算法进行迭代更参优化。大量实验表明该方法在人工基准网络和真实网络上均具有良好的性能,并且在复杂的社区结构检测方面具有更突出的优势。2)提出一种基于集成聚类框架的社区发现方法(CDMEC)。Transfer-CDDA是采用单一的相似性矩阵转换方式来描述节点间的相似性关系,并通过k-means聚类得到检测结果。该方法虽然有效,但聚类结果并不稳定,在适用性上存在缺陷。为了改进这一缺陷,使算法能够充分地描述复杂网络的拓扑结构,提出一种基于集成聚类框架的社区发现方法(CDMEC)。首先,该方法采用四种函数构造复杂网络的不同相似性关系,充分描述网络拓扑结构中各节点之间的综合相似性关系;然后构建了堆栈自编码器与迁移学习的映射组合模型来获得网络的有效低维特征信息:最后采用集成聚类框架来提高聚类结果,通过基准聚类算法聚合多个输入,实现对复杂网络的高精度聚类划分效果。大量实验表明,CDMEC算法是可行且有效的,与Transfer-CDDA算法所获得的最佳结果相比较是相近甚至更优。