论文部分内容阅读
随着互联网行业进入web2.0时代,各类社交网络(SNS)平台得到了迅猛的发展,迅速成为国内外当前新的热点。SNS不仅为庞大的互联网用户提供深层次、多角度的信息支持和服务,而且将人们更加紧密地联系在一起,促进了互联网的发展,使得虚拟网络越来越融入人们的真实生活。但是庞大的用户规模和产生的海量信息给用户带来了信息过载的问题,用户很难找到自己潜在关注对象和感兴趣的信息。因此,在社交网站中进行合适的好友推荐非常有意义,这也成为web2.0时代互联网巨大商业价值的源泉。本论文的主要工作包括:首先回顾和总结了社交网络中的关系推荐的概念,着重介绍了经典的基于内容、兴趣、社交网络图这三类常用的关系推荐算法以及它们的适用场景。然后本文在KDD2012和Facebook推荐比赛的启发下,引出了基于特征抽取和排序算法的推荐模型,并给出了该模型的整体框架,本文除了调用新浪微博API进行数据采集外,分为候选集构建、特征抽取和排序算法这三个模块。其中,候选集构建模块从庞大的用户体系中快速地过滤出用户潜在感兴趣的对象,采用了局部随机游走算法LRW-Friend,并提出了适合微博特性的Biased-LRW。特征抽取模块将每一个候选者与目标用户构成“用户-候选者”对,从用户属性、社交关系、用户文本信息这三个方面做特征抽取,其中在对文本信息进行特征抽取时,使用了基于LDA主题模型的用户聚类,并提出了基于词向量语义相似性矩阵在用户聚类中的应用的算法。在排序算法模块中,排序算法采用组合树模型,该模块主要分为排序模型训练和预测两部分。本文将用户现有的粉丝列表、关注列表、互粉列表进行标注后作为训练集来训练排序模型;排序算法预测模块接收“用户-候选者”对的特征向量,输出为一个分值,该分值代表用户间的的兴趣匹配程度,越高则表示该候选者越有可能成为被推荐的对象。本文采用了内部交叉验证的方式调节模型的参数,使训练的模型具有很强的泛化能力,既提高了模型的性能,同时也能避免过拟合现象。