论文部分内容阅读
随着互联网时代的到来,网络渐渐地融入人们的生活。许多网民通过互联网进行购物、交友、学习等日常活动,它已经成为人们生活中十分重要的一部分。在人们的互联网生活中,网络社交平台,如:新浪微博、腾讯微博、Twitter等,已经成为了众多网民较为活跃的场所。人们可以在这些社交平台中结交新朋友,并与其他用户分享他们感兴趣的文字、图片、视频等信息,而这些被用户发布的信息在一定程度上反映出了用户的行为习惯和兴趣爱好。就目前来说,社交数据具有内容简短、数量庞大、实时性高等特点,因此从海量社交数据中挖掘出有效的信息是数据挖掘领域的一大挑战。面对着大量的社交平台用户数据,构建用户的社交图谱和兴趣图谱是提高社交网络中社交搜索质量的关键。针对与上述问题,为了有效地构建出用户的社交图谱和兴趣图谱,本文的主要研究内容包含有以下几点:1.本文基于链路预测(Link Prediction)的思想,通过改进Friend Link(FL)算法,提出了活跃朋友的预测算法(Active Friend Prediction,AFP)。为了适用于微博这类拥有稀疏的用户属性信息的在线社交平台,本文将用户的在线社交网络抽象为有向图(其中节点代表用户、边代表用户之间存在关系),通过图的局部链路特征来分析用户之间的相似度。本文提出了节点活跃系数的概念,即利用各个节点的出度和入度,通过它们的比值来刻画节点的活跃程度,进而从用户的社交网络图中筛选出行为活跃的用户。同时结合社交网络图的节点之间的链路结构相似度来计算出节点的活跃度评分,从而根据该评分提取出与用户有潜在关系的活跃间接邻居,并利用这些节点构建出用户的高活跃度局部社交网络,即用户的社交图谱。2.本文提出了用户关注的隐式和显式热点人物提取算法(Focusing Personae Extraction algorithm,FPE)。微博是一种以短文本为信息载体的社交平台,虽然微博文本包含着用户关注的人物实体,但是,这些文本中总是充斥着大量的噪声信息。因此,本文从用户及其社交图谱中的用户所发表的微博中提取出人物实体,根据目标用户社交图谱中用户的活跃度评分以及包含了相关的人物实体的微博条数,从而计算出用户对人物实体的关注度,并将具有较高关注度的人物实体作为热点人物构建出用户的热点人物兴趣图谱。此外,该方法还可以用来提取整个局部社交网络中被关注的热点人物。最后,本文通过对比实验的方式,比较了不同的基于链路的节点相似度计算方法与本文改进的算法在精确度、召回率、F值以及时间效率上的差异,并且分别在基于不同的链路预测算法所构建出的目标用户社交图谱中提取用户关注的热点人物。最终实验证明,本文改进的节点评分计算方法较其他方法来说有较高的精确度、召回率、F值,此外本文提出的隐式和显式热点人物实体提取方法能够有效地挖掘出用户所关注的热点人物,并且其精确度取决于用户社交图谱的精确度。