论文部分内容阅读
近十年来,随着社交网络的急剧发展,研究社交网络中用户以及用户之间的关系构成的复杂网络是面临的新问题。推荐系统的诞生虽然一定程度缓解了社交网络的信息过载和信息迷茫,然而,社交网络中的推荐系统和传统的推荐系统不同。传统的推荐系统只注意数据实体自己,而社交网络推荐系统对数据实体之间的连接同样关注。社交网络与传统静态网络不同,它是一种动态网络,伴随着时间的变化,网络中不停的有新的实体和连接加入,也不停的有老的实例和连接消逝,这种动态变化的性质决定了社交网络的研究与传统静态网络的研究会存在很大差异。链路预测在这种背景下应时而生,社交网络中的链路预测是指通过已获悉的网络用户节点、拓扑结构等多种信息,预测社交网络中没有产生连接的两个用户节点之间产生连边的概率。显然,只要预测的精度足够高,必然会提升用户对社交网站的满意度和忠诚度。鉴于社交网络的复杂现状,本文针对社交网络,建立基于链路预测的社交网络推荐系统模型,研究了影响用户之间相互关系的一些因素,提出了基于结合算法的链路预测方法。首先,总结网络平均路径长度、聚类系数、度分布理论等基本性质的基础上,基于图论的相关思想,将链路预测引入社交网络中,构建基于链路预测的社交网络推荐系统模型。对常见的基于节点接近性的链路预测方法、基于释然分析的链路预测以及基于概率的链路预测三类链路预测方法进行详细介绍。然后,在比较顶点度特征、优先链接特征、共同邻居特征(Common Neighbors,CN)、Adamic-Adar指标等多种基于网络拓扑结构的指标的基础上,选择基于共同邻居的接近性方法作为网络拓扑结构接近性的基准方法;并且,将每个新浪微博用户的节点属性划分为背景信息、社交信息、微博文本、交互信息四类,通过分析筛选出具有代表的4种节点属性指标,在此基础上定义了基于用户粉丝数量、关注用户数量、用户所发微博数量、转发数量四种微博用户属性的接近性算法;最后提出了一种结合用户属性特性和网络拓扑结构的社交网络链路预测方法——结合算法,将基于网络结构特征的CN指标和其他四个基于微博用户属性的接近性指标用最简单的线性结合方式,分别结合起来提出四种结合算法。实验数据采用中国爬盟抓取的新浪微博数据,包含用户信息和微博信息两类20多种属性,实验结果表明,本文提出的结合算法与传统的链路预测算法相比,基于结合算法的链路预测算法应用于社交网络推荐系统,能够涵盖社交网络的有效特性,提高了链路预测的准确率,获得优于传统方法的效果,说明本文提出的方法具有合理性和有效性。