论文部分内容阅读
在DT时代,各类物品信息大量涌入互联网,造成了网络信息的“过载”现象。过载的物品信息并没有过多的刺激用户的消费,反而造成了用户“选择难”的问题。个性化推荐系统在这样的背景下应运而生。个性化推荐系统希望能为各类消费用户群体提供个性精准的推荐。评分预测类推荐算法是推荐系统完成个性化推荐任务的基石,近年来得到了学术界的广泛关注与研究。遗憾的是,人们对评分预测类推荐算法存在问题的研究良莠不齐,有的研究专注于提升冷用户(系统中没有历史评分数据的用户)的评分预测精度,有的研究专注于提升暖用户(系统中存在历史评分数据的用户)的评分预测精度,有的研究又将重点放在冷启动项目的得分预测精度上。也就是说没有一个通用的评分预测模型,从用户和项目两方面着手,同时提升冷、暖用户的评分预测精度。因此,本文基于贝叶斯概率矩阵分解模型(BPMF)提出了一个通用模型,该模型通过融合用户和项目显隐性关系网络信息,辅助用户和项目特征的提取,从而提升冷、暖用户的评分预测精度。具体地,本文做了以下工作:(1)根据用户与用户(项目与项目)之间的关系网络是否来自于评分数据,将由评分数据之外的数据提取出来的用户(项目)之间的关系网络称为用户(项目)的显性关系网络。反之,将从评分数据提取出来的用户(项目)之间的关系网络称为用户(项目)的隐性关系网络。并认为,显性关系网络能辅助冷用户(项目)进行特征的提取,而隐性关系网络能对暖用户(项目)的特征做很好的修正。(2)成功的将用户(项目)显隐性关系网络与BPMF模型进行融合,并给出了融合模型(BPMFG)的概率推理图,详细介绍了用户(项目)特征的提取方法和修正方法。在特征向量修正方面,对冷、暖用户(项目)引入不同的修正系数,保证特征向量修正不失真。在模型实现的细节上,考虑了用户(项目)超参数分布的异均值和异方差特性,考虑了用户评分偏置和项目得分偏置问题。(3)针对信任网络(一种用户显性关系网络)中传统信任度计算方法存在的问题提出了基于PageRank算法的新的用户信任度计算方法。进一步地,针对信任用户较少的用户,提出了考虑k跳信任用户的信任度计算方法。(4)通过与四个性能优秀的评分预测类算法,在三个真实的评分数据集上的试验对比表明,BPMFG模型能够有效的改善评分数据分布不均衡条件下对冷、暖用户的评分预测精度。相比于其中性能最优的模型,BPMFG模型对冷、暖用户的评分预测均方根误差(RMSE)平均改善了6.04%与5.18%。(5)另外,为了验证BPMFG模型的扩展性能,同时也为业界提供概率矩阵分解系列推荐模型的分布式实现思路,本文基于Spark-GraphX对BPMFG模型进行并行化。并搭建了一个具有6个节点的集群,通过三组试验测试模型的分布式训练性能。