论文部分内容阅读
随着以Facebook、Twitter、微信和微博为代表的大型社交媒体的快速发展,产生了海量的网络结构数据,如何合理地表示这些数据是实现大规模网络数据高效挖掘的基础。网络表示学习(Network Representation Learning),又称为网络嵌入(Network Embedding),就是为解决这一问题而兴起的研究方向。现有网络表示学习方法主要利用网络结构信息和其他异质信息,采用矩阵分解或神经网络方法训练得到网络节点的低维向量表示。但面对海量、动态、异质的社交媒体数据,现有网络表示学习方法仍存在以下问题与挑战:1)社交媒体中用户种类复杂多样,用户关系交叉重叠,使得现有网络表示学习方法生成的用户表示向量相互混杂、难以区分;2)社交媒体用户间的网络结构动态变化,现有动态网络表示学习方法对用户节点演化过程建模不足;3)社交媒体的不同对象间存在复杂的语义关系,在将网络连边中丰富的语义关系信息融入节点表示上还存在不足;4)社交媒体中用户数据来源多样且包含大量噪声,现有融合异质信息的网络表示学习方法在噪声干扰场景中鲁棒性不强。针对上述问题,本论文依托某装备预研项目和国家自然科学基金项目“针对有向网络的链路预测原理及方法研究”,借助社交媒体网络中丰富的用户数据,对面向社交媒体的网络表示学习关键技术展开研究。主要研究成果如下:1.针对社交媒体中现有静态网络表示学习方法生成的网络节点表示相互混杂、难以区分的问题,提出一种融合节点标签信息的网络表示学习方法。该方法充分利用已有的部分标签信息,并首次引入深度度量学习技术,将网络中不同类别节点间的距离信息融入生成节点表示的模型训练过程中,使得现有表示学习模型增强对全局信息的度量,有效提升了网络表示学习算法在节点分类任务中的准确率。在真实数据集上与现有方法的仿真对比表明:该方法在节点多标签分类任务中准确率平均提升10%左右,在可视化任务中类别划分更加准确。2.针对现有动态网络表示学习方法在社交媒体网络动态演化场景下对网络结构时变信息建模不足的问题,提出一种融合时空变化信息的网络表示学习方法。该方法首先利用动态网络中当前和过去时间内的网络结构,构建用户节点在一定时间窗内的时空轨迹图,实现将用户的时空变化信息嵌入到静态的时空轨迹图中;然后利用重启式随机游走算法,在时空轨迹图中获取节点的随机游走序列;最后利用经典的Skip-gram模型,训练得到动态网络中一定时间窗内用户节点的轨迹表示。在三个真实动态网络数据集上的仿真结果表明:该方法可有效融合节点的时空变化信息,使得训练生成的网络节点表示在节点分类及链路预测任务中准确率提升5%以上。3.针对当前网络表示学习方法在刻画社交媒体网络中丰富连边语义信息不足的问题,提出一种融合连边语义信息的网络表示学习方法。该方法首先基于表征不同语义关系的元路径在网络中进行随机游走,生成不同类型节点组成的节点序列;然后根据节点序列和元路径权重计算方法,筛选出重要元路径,将异质信息网络转化为融合多维语义信息的带权子网络,实现对不同元路径语义信息的融合;最后在抽取的带权子网络中利用Skip-gram模型得到节点向量表示。实验结果表明:该方法可有效筛选重要元路径,生成融合不同元路径语义信息的网络节点表示,在节点分类任务中优于基准算法。4.针对融合异质信息的网络表示学习方法在社交媒体数据存在噪声干扰场景下鲁棒性不强的问题,提出一种基于D-S证据理论的网络表示决策融合方法。现有研究在网络结构的基础上考虑融入多维属性信息来提升网络表示效果,由于信息来源的差异性,多源信息的相互验证可以提升网络表示的性能,但信息冲突也会降低融合效果。本文方法中首先通过SVM算法给出不同属性信息对融合表示结果的支持度,然后利用证据组合规则对各特征的网络表示进行冲突处理与融合评价,并创新地引入混淆矩阵对各类别分类中的局部可信度进行建模,实现对分类算法中后验概率的校正。仿真实验表明:本方法可以有效检测网络表示融合中的冲突,提升网络表示融合效果。最后,本文在上述融合异质信息的网络表示学习研究基础上开展相关应用,提出一种基于网络表示学习的用户行为分析方法和针对用户不同类型数据的编码处理方法。根据所获取网络数据的特点,分别以微博网络和电信网络为代表,开展了基于网络表示学习的微博异常用户检测和电信网用户行为模式挖掘研究。