论文部分内容阅读
随着信息技术的发展,以推特(Twitter)、领英(LinkedIn)、微博为代表的在线社交网络越来越受到人们的青睐和关注。推特作为全球最大的在线社交网络,已经成为国外网民发表自己意见和分享讯息的重要平台。推特每日活跃着海量的账号(用户),推特中的账号又会发布或者转发大量的文本信息,通常账号发布或者转发的文本信息与账号的兴趣爱好及个人生活息息相关,另一方面,账号也会倾向于关注与自己有相同兴趣爱好的其他账号,彼此之间的如转发、提及等互动行为也会更加频繁。社交网络账号的分类问题正是基于上述的情况,利用账号发布的文本内容以及账号间的关系信息来实现账号分类,以达到特定类别账号个性化推荐、识别封禁垃圾账号等目的。本文以推特社交网络中的账号为研究对象,从账号发布的文本内容和账号关系的角度出发,对推特的账号分类问题展开研究,主要研究内容如下:1.针对账号的文本表征问题,本文以分布式词嵌入模型word2vec为基础,考虑到传统的词嵌入模型是一个无监督的训练过程,提出了半监督账号文本嵌入表示模型Semi-User2vec,将账号的文本信息映射为一个稠密的低维向量,生成带有标签信息的账号文本特征向量,然后作为分类器——支持向量机(Support Vector Machine,SVM)的输入,进行账号的分类。2.针对账号文本和账号间关系的融合问题,考虑到社交网络中相同类别的账号在发布推文会经常出现彼此之间互相提及(@关系)这一互动行为的情况,本文从推文中提取账号间的提及关系,构建提及关系网络,并且借鉴词移距离模型,利用半监督文本嵌入表示Semi-User2vec作为输入,来计算账号在社交网络的邻居相似度,并在邻居相似度计算的特性的基础上,提出了基于集成学习的融合账号文本特征和邻居相似度的账号分类方法。3.针对如何利用多维关系进行账号分类的问题,本文对推特的数据进行处理,构建多维关系网络——提及、转发、好友关系网络,在目前新兴的图神经网络方法的基础上,本文提出了多维图卷积网络,并在图卷积网络机制的基础上,利用传统神经网络中的注意力机制,实现多种关系网络的融合,进行推特账号的分类。