论文部分内容阅读
互联网的兴起带来了一个数据爆炸、信息爆炸的时代,人们的生活急需要从海量的信息中提取到自己所需的信息,各种不同的推荐系统应运而生。随着数据信息的指数型增长,数据类别的变化、数据的可获取性和数据的多样性都给推荐算法的精准性带来了很大的挑战,传统的协同过滤算法在当下个性化的需求面前,其准确性显得有很大不足。如何更好的利用数据资产对推荐算法进行改进是当下需要被重点思考的课题。
本文基于公开的数据集MovieLens对目前使用较广的协同过滤算法进行了实验研究。首先对数据集进行了描述性统计分析,然后利用准确率、召回率、覆盖率和新颖度这四个指标,对比非个性化推荐算法(Random算法和MostPopular算法)与个性化推荐算法(基于用户行为的协同过滤算法)在数据集上的表现。并在此基础上深入探究用户对电影的评分信息给推荐效果带来的影响,由此得出在计算用户相似度或者物品相似度时,也需要将评分信息考虑进去才能更好的反映相似度的结论。在此结论上,本文提出了一种修正的余弦相似度计算方法,且在计算用户相似度和物品相似度时相似度公式也有所不同,结果显示相似度改进后,推荐算法的结果有显著提升。
在推荐系统中常常也会面临冷启动的问题,据此本文提出基于用户特征数据或者基于商品特征数据进行推荐,并且将其与传统的基于用户行为信息的协同过滤算法结合起来,对各自的预测评分通过权重加权以后作为最终的评分进行推荐。在MovieLens数据集上的结果表明,基于用户行为和特征数据的混合协同过滤算法在准确率、召回率、覆盖率和新颖度上都能有更好的表现。
最后基于评分预测领域的FM(Factorization Machine)模型,对训练集中用户没有观看过的电影进行评分预测,然后根据预测出的评分选取评分最高的电影进行推荐,结果显示推荐效果并没有协同过滤算法优异。
全文通过研究得出结论:(1)相似度的计算作为推荐算法的核心需要被重点关注;(2)混合的推荐算法类似于集成算法能够表现更好,数据资产的处理与合理运用可以提升算法表现;(3)复杂的算法并不一定会使得结果有更好的表现。最后反思在推荐系统这个领域还有很多需要被深入研究的问题,如相似度的计算问题、计算复杂度问题、如何更好的利用数据、如何选取更合适的模型算法等问题上做出了新的展望。
本文基于公开的数据集MovieLens对目前使用较广的协同过滤算法进行了实验研究。首先对数据集进行了描述性统计分析,然后利用准确率、召回率、覆盖率和新颖度这四个指标,对比非个性化推荐算法(Random算法和MostPopular算法)与个性化推荐算法(基于用户行为的协同过滤算法)在数据集上的表现。并在此基础上深入探究用户对电影的评分信息给推荐效果带来的影响,由此得出在计算用户相似度或者物品相似度时,也需要将评分信息考虑进去才能更好的反映相似度的结论。在此结论上,本文提出了一种修正的余弦相似度计算方法,且在计算用户相似度和物品相似度时相似度公式也有所不同,结果显示相似度改进后,推荐算法的结果有显著提升。
在推荐系统中常常也会面临冷启动的问题,据此本文提出基于用户特征数据或者基于商品特征数据进行推荐,并且将其与传统的基于用户行为信息的协同过滤算法结合起来,对各自的预测评分通过权重加权以后作为最终的评分进行推荐。在MovieLens数据集上的结果表明,基于用户行为和特征数据的混合协同过滤算法在准确率、召回率、覆盖率和新颖度上都能有更好的表现。
最后基于评分预测领域的FM(Factorization Machine)模型,对训练集中用户没有观看过的电影进行评分预测,然后根据预测出的评分选取评分最高的电影进行推荐,结果显示推荐效果并没有协同过滤算法优异。
全文通过研究得出结论:(1)相似度的计算作为推荐算法的核心需要被重点关注;(2)混合的推荐算法类似于集成算法能够表现更好,数据资产的处理与合理运用可以提升算法表现;(3)复杂的算法并不一定会使得结果有更好的表现。最后反思在推荐系统这个领域还有很多需要被深入研究的问题,如相似度的计算问题、计算复杂度问题、如何更好的利用数据、如何选取更合适的模型算法等问题上做出了新的展望。