论文部分内容阅读
随着互联网技术的发展、智能终端的普及以及多种社交平台的出现,人们会参与到不同种类的社交网络中,这导致只研究一个社交网络向用户进行实体(用户、商品、位置等)推荐的方法已不是最佳。近年来,研究领域出现了对齐异构社交网络(aligned heterogeneous social networks)这一网络模型,该模型能够建立多个社交网络的连接,这使得利用多个社交网络数据进行推荐变得可能。然而对齐异构社交网络的推荐或预测工作仍处于起步阶段,仅限于少量种类的数据集和对应的用户-用户链路预测和用户-位置链路预测。另外现有研究考虑的特征或因素过于简单,对于数据集中多种属性的利用以及特征的处理和筛选并不成熟,预测空间较为局限,不适用于推荐场景,且预测结果不具有时间因果性。因此,本文提出部分对齐异构社交网络中的实体推荐问题,即用户-实体的链路预测问题,主要分为以下研究内容:第一,提出了一个基于元路径特征的对齐异构社交网络的链路预测框架。首先将该问题转化为分类问题,并提出基于元路径的自动化特征提取方法;通过定义边权值的多种计算方法进一步扩展元路径特征个数,生成基于元路径的初始特征集合;然后通过特征提取算法进行特征筛选,并生成最终的预测模型。第二,提出了两阶段逐步向前贪心的特征选择算法。该算法设计时结合了计算复杂度低的过滤模型及性能指标好的封装模型的双重优势,从全体特征中选取特征子集。实验证明,该特征选择方法较现有的特征选择算法在计算时间、预测效果及模型复杂度上表现较好。第三,基于上述链路预测算法过程及关键步骤实现了对齐异构社交网络的实体推荐系统,系统实现了对齐异构社交网络的数据抓取、特征定义及生成、边权值计算、特征计算、特征选择算法以及模型生成,系统还设计了一个可视化界面以向用户展示推荐结果。利用原型系统,本文抓取了Foursquare和Twitter的数据集,并进行了Foursquare中用户-用户链路、用户-位置链路以及Twitter中的关注者-被关注者链路的预测实验。从最终建模的特征种类可以看出,除包含常见的时间、空间和二三度好友因素的元路径特征之外,锚链路、流行度、标签以及权值的多种计算方法产生的元路径特征都起着重要的作用。实验通过Precision Recall、 F1值等指标进行评价,证明本文的模型相对现有工作或者baseline具有较好的推荐效果。