论文部分内容阅读
随着互联网信息的快速增长,个性化的推荐系统对工业界和学术界的发展都有着重要的作用。然而,在信息高速发展的时代,传统的推荐系统面临着一系列的挑战,不仅其自身算法存在一些难以解决的问题如数据稀疏性、冷启动、难以扩展等,而且传统的个性化推荐系统已难以满足在大数据、信息爆炸的背景下人们对信息利用的需求。在很多实际的应用场景中,推荐系统中的数据除了用户-项目的评分信息外,还有用户之间的社会关系、项目的内容信息、时间信息等一些类似的辅助信息。如何在推荐系统中融入有用的辅助信息提高推荐的精度、改善传统推荐系统存在的难题是一个很重要的问题。本文在分析推荐系统的国内外研究现状的基础上,发现基于概率矩阵分解的方法应用在推荐系统中能表现出很好的性能,而用户之间的社会关系引入到推荐系统中能解决传统推荐系统中数据稀疏、冷启动的问题。但是实际中用户之间的关系是多样化和隐式存在的,需要通过挖掘用户之间的行为才能获得。而且随着微博、微信、标签系统等以分享内容为形式的推荐系统的出现,能融入推荐系统中的信息也迅速增长,利用这些丰富的信息能带来更准确的推荐,能提高用户的体验度。互联网中还有时间等各种信息对改进推荐系统的性能提供了一个很好的素材。因此,本文引入概率矩阵分解模型以结合这些辅助信息分析解决推荐系统存在的问题。针对推荐数据中包含的用户之间的关系和项目的多种内容信息,我们结合概率矩阵分解模型和话题模型LDA提出了SC-PMF算法,在预测的基础上给用户进行推荐。基于提出的SC-PMF推荐算法,我们在Bibsonomy和CiteUlike两个数据集上进行了实验分析。实验表明在共享信息多的Bibsonomy数据集中,用户表现出的兴趣偏向受社会影响的程度更为明显。而且实验展示的项目内容信息越丰富,模型表现出的性能就越好。因此,实验表明用户之间的社会关系和项目的多种内容信息的利用能有效的改善改进推荐算法的性能。针对推荐数据中拥有的时间信息,我们在原有的评分矩阵的基础上加入社会关系、时间信息得到用户-用户-时间和用户-项目-时间的关系矩阵,利用概率矩阵分解模型实现了PMFST这一方法,然后在此基础上进行实时推荐。同时,我们还利用了项目中的类别信息,提出了一个基于层次推荐的框架。我们先根据项目的类别对项目进行划分,利用我们提出的融入的社会关系、时间信息的概率矩阵模型PMFST为用户推荐项目的类别,然后针对每类为用户推荐项目。基于层次推荐的框架不仅减少了需要同时计算大量数据的时间,而且在微观意义上缩小了数据的规模,使得模型易于扩展,能很好地适应当下这一大数据时代环境。同时,我们在Epinions和Ciao两个数据集上进行了实验,验证PMFST算法和提出的层次推荐框架的可行性。实验表明此模型能有效的提高推荐系统的性能,还能改善推荐系统中存在的冷启动、数据稀疏,将此模型应用于层次框架中还能解决传统个性化推荐系统中推荐算法难以运用到大规模数据这一难题。