论文部分内容阅读
推荐系统是解决信息过载的有效工具,它能根据用户的历史行为数据做出个性化推荐。隐语义算法作为一种经典的推荐算法在研究和应用中都取得了很大成功,但它依然存在一些问题值得探讨和研究。首先是算法在数据稀疏的情况下推荐准确性较低,无法解决算法冷启动的问题。其次是隐语义模型推荐算法的可扩展性较差。算法参数需要进行全量更新,计算量大,更新时间长。为了解决隐语义模型推荐算法在数据稀疏情况下推荐准确性较低的问题,本文提出一种融合用户属性信息的隐语义模型,该模型将用户的属性信息融入传统的隐语义模型中,即使在数据稀疏的情况下依然能够根据用户的属性信息进行推荐:针对隐语义模型的扩展性较差的问题,将改进后的隐语义算法进行并行处理,提高算法的可扩展性。本文主要研究内容如下:1、分析主流的推荐算法的优缺点,包括基于内容的推荐算法、协同过滤的推荐算法、基于网络的推荐算法和模型混合的推荐算法。针对传统隐语义模型算法在数据稀疏情况下推荐效果不佳的问题,提出了融入用户属性信息的隐语义模型推荐算法,在用户历史行为数据不足的情况下可以利用用户的基本属性信息来进行推荐。通过逻辑回归分类算法来度量属性的重要性,根据用户的属性信息找出邻域用户,让邻域用户参与推荐。实验结果表明,该算法在一定程度上能解决数据稀疏带来的问题。2、为了解决传统隐语义模型推荐算法的可扩展性较差的问题,本文设计并实现了一种基于Hadoop平台的并行隐语义算法。算法将模型的训练、基于属性预测评分以及产生推荐结果的过程分解为一系列的Map-Reduce任务,使得算法能在多台机器上同时运行,大大降低模型训练时间而且还能够处理不断增加的数据。实验表明,随着数据量的不断增大,算法在集群上有良好的扩展性。3、以本文提出的推荐算法为基础,设计一个基于Hadoop平台的电影推荐系统,系统能根据用户的历史评分数据推荐用户可能感兴趣电影。该系统针对海量数据处理的扩展性较高,针对不同的用户能够及时做出个性化推荐。