论文部分内容阅读
在图结构数据上的社区检测,是数据挖掘和模式识别领域的重要任务,也是机器学习中嵌入(Embedding)和分类(Classification)任务的基础。社区检测意在从复杂的图结构网络中寻找可能相关的联系,比如社交网络中的个体与个体之间的关系,或者蛋白质分子中可能隐藏的新结构。但由于近年来数据形式愈趋复杂,传统的社区检测方法已经出现诸多包括性能上和效率上的局限性,改进已有的社区检测算法和发现新形式的社区检测算法逐渐变得重要。图卷积神经网络(Graph Convolution Neural Network,GCN),是传统的卷积神经网络(Convolution Neural Network,CNN)在高维图数据上的拓展。弥补了传统神经网络无法作用于非欧式距离数据的不足,使得在图结构数据上也可以使用神经网络分类器高效的参数共享性质。本文对图卷积神经网络的卷积核进行详细分析并根据其与信息传播模型的相似性为基础,对其进行无监督改进,设计并实现了一种基于图卷积神经网络的无监督社区检测算法。由于信息论中信息传播模型即是由现实世界中的信息传播抽象而来的,所以根据这种模型进行的社区检测理应更加符合现实世界结果。算法以图结构上机器学中图卷积神经网络为方法,以信息传播方法为参考模型,对半监督机器学习方法进行无监督改进并提出一种基于图卷积网络的无监督社区检测算法。算法通过修改图卷积神经网络参数共享模型并使用固定权重替代权重训练,实现将监督学习方法在无监督领域中的应用。通过在无标签的数据中选定某些特定节点并对其设定初始模拟信号标签,并通过改进的图卷积神经网络的卷积核逐层传播整个初始标签信息,最后通过比较获节点获得的初始标签来决定其社区划分。算法仅只使用图结构的拓扑结构,不依靠数据的原始标签,而且在获得更优结果的同时减小了算法的复杂度。针对图卷积神经网络在如何应用与社区检测任务中的问题进行研究,本文完成的主要工作总结如下:首先,介绍了社区检测与机器学习的概念以及发展状况。并阐述了机器学习方法如何在社区检测中的应用,随后介绍可以在非欧式距离中使用的图卷积神经网络模型。以及设计基于图卷积神经网络的社区检测算法。其次,对在图上的深度学习进行详细说明,对比在图上的深度学习方法与传统机器学习方法的不同,并进一步解释机器学习方法在社区检测中的应用与遇到的问题,以及机器学习方法可能在其他领域的拓展。分析对比当前各种不同社区检测算法,分析其原理与不足。再次,详细介绍了在图结构上的信息传播模型,对比本文提出的基于图卷积神经网络的社区检测算法的流程及工作原理。论证两种模型在相同时间单位,可以同样实现使图数据上不存在信息标签的节点获得信息。并在算法实施阶段解决了算法中对模拟信号的初始选择、划分结果可能出现异常等实际问题,将半监督机器学习方法与无监督社区检测进行融合。将算法应用于多种包括人工和现实数据集中进行测试并检验测试结果,结果表明相比于其他社区检测算法,本文提出的算法在社区检测的准确性和算法的复杂度上都有一定优势。并相对于其他固定参数的社区检测算法,拥有参数可调的特点。最后,总体阐述了本文算法优势与需要改进的地方,并对文章进行总结。说明了后期期望工作并探讨了其他几个值得研究的方向。