论文部分内容阅读
随着互联网的迅猛发展,尤其是社会网络流行和被人们普遍使用,信息已经出现爆炸式的增长。网络中存在的海量信息,为用户提供了非常多的选择,但是这么多的选择,却让用户更加的无所适从。虽然这些信息存在着巨大的作用和商业价值,如何为用户提供更好的服务,产生更大的价值,成为了研究者当前研究的热点。随着互联网的进步和研究人员的努力,推荐系统技术成为了缓解信息过载问题的一种非常有效的方法。它可以从海量的信息中,挖掘出有用的信息,为用户提供更好的服务,例如得分的预测,项目列表的推荐等。在现实的推荐系统中,协同过滤技术是最流行和被广泛应用的推荐算法。它分为两种类型的方法,集基于记忆的方法和基于模型的算法。在现实的网络中,像电影评分,都可以采用上面的两种类型的方法进行预测。但是真实的电影评分数据,每一个用户拥有的数量和评分的偏好都是不一样的,这就导致协同过滤中,两种类型的方法对于每一个用户的预测准确度是不相同的。这两种类型的方法事实上针对评分的数据的地方是不一样的,其中基于记忆的协同过滤方法更适合发现相似的用户,如果用户的数据比较少,则表现比较不稳定,而基于模型的方法主要种全局优化,而忽略了评分数据比较多的用户的特点。并且随着社会网络的发展,信任关系在服务中起着越来越重要的作用,不可被忽略。因而基于信任的推荐方法被提出,并证明即使用户拥有比较少的信任关系,也可以通过社会网络中的信任关系提供更准确的推荐。但是当一个用户拥有比较少的朋友时,基于信任的推荐方法表现比较差。在社会网络中,对于每一个用户来说,由于信任关系和评分数据分布不均衡,传统的协同过滤推荐算法和基于信任的社会推荐在推荐时在对每一个用户进行预测时,都有不同的表现。例如在一个用户有非常多的评分情况下,即使拥有的信任关系比较少,使用协同过滤算法要比基于信任的推荐方法此时预测的效果要好。与之相反,在用户在拥有大量的信任关系,即使缺少评分数据的情况下,基于信任的推荐方法表现的要比协同过滤的方法好。在本论文中,我们针对上面提出的问题,主要做了下面的探索和研究:1)针对评分数据分布不均衡问题,将基于记忆中的最近邻方法和基于模型中的概率矩阵分解的方法集成,提出了一种混合推荐模型DPMFNeg,它根据用户在评分数据集上的分布特点,结合基于记忆的推荐方法和基于模型的算法的优点。我们在两个公开的数据集MovieLens-100K和MoiveLens-1M上做了大量的实验来查看我们方法的性能,并且根据我们提出的方法和其它流行方法的MAE和RMSE结果,显示了DPMFNeg方法表现的要比其它方法要好。2)尽管传统的协同过滤算法是推荐系统中非常高效的推荐算法,并且上面我们提出的混合协同过滤模型,可以更好的处理评分数据中分布不均衡问题。但是由于其忽略了社会网络中的信任关系,因此我们接着提出了一种用户自适应的混合推荐模型DTMF,它可以集成基于信任的推荐方法和概率矩阵分解的方法的优点,根据用户的特点和数据分布情况,学习到适合每一个用户自己的结合参数。在拥有社会关系的Epinions和Flixster数据集上,我们通过实验探究我们提出的方法的性能。实验结果表明了DTMF要比对比的流行推荐算法,更好的提高推荐的效果。通过我们的研究,提出的动态集成的两种混合推荐模型,有效的缓解了评分数据和社会关系数据的分布不均衡问题,并且能够根据用户的特点,更好的集成两种方法的优点,为用户提供更准确的预测。