论文部分内容阅读
近年来,各种在线社交网络媒体出现在人们生活中,产生了海量的网络结构数据,大规模的网络结构数据使传统网络表示方法遇到了瓶颈。随着深度学习的发展和受自然语言处理领域词嵌入的启发,自动化的网络表示学习成为新的研究热点。网络表示学习旨在将网络中的节点通过深度学习方法投影到低维稠密向量空间,进而更方便地运用到网络可视化、节点分类、链接预测及社区发现等任务中。网络数据根据结构的复杂度可分为无向网络,有向网络和知识图谱三类。本文的主要工作是针对以上三类不同类型网络的特点提出相应方法提高网络表示学习的性能,主要内容如下:(1)基于门控图注意力机制的无向网络表示学习方法。针对图注意力网络中注意力系数的特征权重固定且网络结构感知能力弱的问题,提出将门控单元引入图注意力机制的无向网络表示学习方法。该方法将节点周围的邻域信息输入到门控单元中,灵活调整注意力系数的特征权重。实验结果表明,该模型在无向网络表示学习任务上有较大提升。与基准模型相比,Cora数据集上的直推学习任务准确率提升了 0.5%,PPI数据集上的归纳学习任务micro-F1提升了 1.3%。(2)基于层级信息改进的有向网络表示学习方法。针对有向网络中环破坏非对称传递性从而加大学习全局结构特征难度的问题,提出将节点层级信息引入网络表示学习的有向网络表示学习方法。实验结果表明,该模型在有向网络表示学习任务上相较于基准模型有较大提升。与基准模型相比,在四个数据集(Wiki-Vote、Jdk-dependency、Cora-citation、Cit-HepPh)上的链接预测任务 AUC 值分别提升了 7.5%,1.1%,4.3%和 4.6%。(3)基于改进向量投影距离的知识图谱表示学习方法。针对知识图谱中的一对多,多对一和多对多等复杂关系学习困难的问题,在基于向量投影距离的知识图谱表示方法上,引入自适应矩阵并调整损失函数中各类关系的权重。实验结果表明,该模型在知识图谱表示学习任务上相较于基准模型有较大提升。与基准模型相比,在FB15k数据集上的链接预测的hits@10指标提升了 8.6%。本文通过对无向网络、有向网络和知识图谱的结构特点进行分析,分析了这三种网络的表示学习中存在的问题并提出对应的解决方案,为大规模网络数据的进一步研究和利用打下基础。