论文部分内容阅读
随着数据量增长,社会关系网络的规模不断扩大,网络的邻接矩阵占用了大量的存储空间,邻接表的方式又不方便计算机的处理和计算,且都无法充分反映网络整体结构信息和语义信息,不能直接应用于传统的机器学习算法,因此研究如何将复杂的社会关系网络嵌入低维向量空间的表示学习,具有重要的理论与应用价值。长期积累的历史数据能构建动态的社会关系网络,反映其动态演变信息;多源异构信息的融合可以构建异构的社会关系网络,反映异质节点间多种关系信息。现有的研究只针对网络的动态性或异构性其中一种进行表示学习,要基于同一个向量空间来结合这两方面迥异的特征,使嵌入结果同时反映网络的演化信息和异构关系信息仍存在挑战。针对以上问题,本文提出了动态异构社会关系网络表示学习算法DHIN2Vec。本文的主要工作和贡献如下:(1)针对动态演变特征和异构信息在本质上的不同,不易保证两种特征在同一个向量空间,本文研究了两者结合的方式,包括串行、并行和融合几种思路。本文采用融合思想,使用Meta Path和随机游走原理生成训练样本,反映网络异质节点间的联系;以Word2Vec的one-hot编码激活神经网络中的向量表示;以LSTM神经网络学习网络的动态演变关系,提出了基于深度学习的DHIN2Vec模型。DHIN 2Vec在神经网络中拟合节点对在特定异质关系下,在不同时刻的连通性,学习动态异构社会关系网络的嵌入表示。(2)针对目前同时满足动态、异构两种特性网络数据的空缺,构建了 DBLP学术动态异构社会关系网络。其中有三类异质节点,包括作者、文章、会议共计41340个节点;四类异质连边,包括创作、引用、合作、会议所属共计146231条连边;持续时间15年,划分为5个时间区间。(3)针对网络中异构连边的不同语义问题,通过实验验证了不随时间发生变化的连边,譬如作者与文章间的创作边,自出现时刻开始一直保留在后续时刻的网络中,能让节点的嵌入表示拥有更加真实的语义信息,表示学习效果更好。另外实验验证了把会议节点作为额外的异构信息加入到DBLP网络中,DHIN2Vec有更好的性能,证明了异构信息在DHIN2Vec中的有效性。与 DeepWalk、Node2Vec、TNE、Dynamic Triadic、HIN2Vec 等典型算法相比,DHIN2Vec在最新时刻网络的链接预测任务中,Fl-Score为0.9117,比基准算法中表现最佳的Dynamic Triadic领先0.0534,提升了 6.27%。在节点预测中,DHIN2Vec的 Macro-FI 为 0.521,比 Dynamic Triadic 高 0.014,提升了 2.76%。DHIN2Vec 融合嵌入了动态和异构两种类型的特征,显著提升了链接预测、节点预测应用效果。