论文部分内容阅读
如今,人类已经逐渐进入了一个信息爆炸的时代,协同过滤这种推荐算法在信息系统和信息的过滤中快速变的很流行。但是,传统的协同过滤算法主要是经过对系统输入的用户-项目评分矩阵中数据的分析与计算,将用户感兴趣的内容推送给用户,却忽略了用户的兴趣会随着时间的变化产生变动,影响了推荐系统的精确度。另外,现有的协同过滤推荐也忽略了用户的特征背景信息,导致了冷启动问题。因此,在对用户推荐项目时,应考虑各种信息特征,以缓解数据稀疏性,提高推荐精度。
随着推荐系统中数据越来越多,规模越来越庞大,传统的以单机计算为主的协同过滤算法会遇到严重的瓶颈,因此对协同过滤算法进行并行化分析是很有必要的。本文使用 Hadoop 云平台集群的能力,进行高速的并行计算和比较有优势的存储,利用 MapReduce计算框架来完成并行化设计,处理基于用户兴趣变化以及基于用户特征的协同过滤算法所面临的一系列大规模数据问题。
本文的主要工作:
(1)针对传统的基于用户协同过滤算法总是忽略用户兴趣的改变会导致推荐结果不够准确的问题。本文以艾宾浩斯遗忘曲线为研究基础,利用用户在系统内的访问时间,加入时间因素来形容用户兴趣的改变。研究这个因素将如何影响到本文重点讨论的两个问题,也就是在推荐过程中的用户相似度计算以及对用户还没有进行评分的项目预估一个评分的分值,进一步对提升该算法的推荐精准度。
(2)传统的基于用户的协同过滤算法加入用户特征的影响因素,从用户属性特征以及对用户评分差异两方面入手,使得新用户注册就可以轻松地进行有效推荐,并且在计算用户之间相似性时将用户属性特征与用户评分差异加权考虑,提升用户之间的相似度的计算结果,使邻居用户更加精准,进一步进行预测评分,提高推荐算法的精确度。
(3)在 Hadoop 平台上分别对基于用户兴趣变化和基于用户特征的协同过滤推荐算法进行分布式实现,也就是利用 MapReduce 计算框架进行协同过滤算法的并行化计算。它的原理就是将需要进行并行操作的步骤散落在每个节点,降低每个节点的计算时间去提升计算效率,从而达到可以处理超大数据的目的。最终,将基于 MapReduce并行处理后的算法安排在 Hadoop各个节点,分别利用不同的数据集进行实验分析,从实验结果中验证改进算法的并行化优化效果。
实验证明,在Hadoop平台上的基于用户兴趣变化以及基于用户特征的协同过滤算法在很大范围内解决了传统算法的运算时间比较长、推荐效果比较差等一系列问题,具有一定的理论价值和实用意义。
随着推荐系统中数据越来越多,规模越来越庞大,传统的以单机计算为主的协同过滤算法会遇到严重的瓶颈,因此对协同过滤算法进行并行化分析是很有必要的。本文使用 Hadoop 云平台集群的能力,进行高速的并行计算和比较有优势的存储,利用 MapReduce计算框架来完成并行化设计,处理基于用户兴趣变化以及基于用户特征的协同过滤算法所面临的一系列大规模数据问题。
本文的主要工作:
(1)针对传统的基于用户协同过滤算法总是忽略用户兴趣的改变会导致推荐结果不够准确的问题。本文以艾宾浩斯遗忘曲线为研究基础,利用用户在系统内的访问时间,加入时间因素来形容用户兴趣的改变。研究这个因素将如何影响到本文重点讨论的两个问题,也就是在推荐过程中的用户相似度计算以及对用户还没有进行评分的项目预估一个评分的分值,进一步对提升该算法的推荐精准度。
(2)传统的基于用户的协同过滤算法加入用户特征的影响因素,从用户属性特征以及对用户评分差异两方面入手,使得新用户注册就可以轻松地进行有效推荐,并且在计算用户之间相似性时将用户属性特征与用户评分差异加权考虑,提升用户之间的相似度的计算结果,使邻居用户更加精准,进一步进行预测评分,提高推荐算法的精确度。
(3)在 Hadoop 平台上分别对基于用户兴趣变化和基于用户特征的协同过滤推荐算法进行分布式实现,也就是利用 MapReduce 计算框架进行协同过滤算法的并行化计算。它的原理就是将需要进行并行操作的步骤散落在每个节点,降低每个节点的计算时间去提升计算效率,从而达到可以处理超大数据的目的。最终,将基于 MapReduce并行处理后的算法安排在 Hadoop各个节点,分别利用不同的数据集进行实验分析,从实验结果中验证改进算法的并行化优化效果。
实验证明,在Hadoop平台上的基于用户兴趣变化以及基于用户特征的协同过滤算法在很大范围内解决了传统算法的运算时间比较长、推荐效果比较差等一系列问题,具有一定的理论价值和实用意义。