论文部分内容阅读
随着网络的迅速普及,网络应用多样化趋势加快,大数据时代已经到来。数据的急剧增加使得推荐系统中的用户数和项目数也大大增加,相对来说可用的评分所占比例将越来越小,评分矩阵将更加稀疏,这将导致传统推荐算法得出的结果与实际偏差较大,用户体验较差。并且由于大数据量的到来传统推荐算法已不能满足计算的需求,传统推荐算法依赖单节点的计算将面临着新的革命。因此未来满足用户的需求,须采用多节点的计算并结合多维度的数据来改进以往算法,从而应对大数据的冲击。本研究主要从协同过滤推荐算法的数据稀疏性和可扩展性问题两个方面展开研究,首先提出了基于双维度云模型的协同过滤推荐算法。并依据近年来的趋势,引入了隐式反馈数据,提出了引入隐式反馈的多维度推荐算法,最后以该算法为核心设计了推荐系统。本研究工作的具体成果如下所示:(1)提出了基于双维度云模型的协同过滤推荐算法。该算法在双维度数据的基础上引入了云模型和hadoop集群,并且通过动态确定权重,使得用户和项目两个维度的评分权值更合理,得出的预测评分更加的精确。实验数据表明,该算法在MAE值(平均绝对偏差)的表现上相对于其他算法有很大的提升,且通过单机与集群的对比,验证了该算法能适应大数据环境。由于利用了云模型和两个维度数据,数据稀疏性问题也得到了合理的解决,推荐质量得到了一定的提升。(2)提出了引入隐式反馈的多维度推荐算法。该算法充分利用了MapReduce框架在处理大数据时的优势,同时通过对用户-项目评分矩阵的处理得出用户维度和项目维度的预测评分。通过对于用户交互数据的处理,得出期望的隐式反馈兴趣评分数据。通过三个维度评分的综合得出最终预测评分,并根据评分值进行推荐。实验数据表明,该算法在召回率和准确率上的表现相对于其他算法有了较为明显的提升,且数据量越大推荐质量越好,准确度越佳。通过单机与集群的对比验证了该算法适合大数据环境。(3)以引入隐式反馈的多维度协同过滤推荐算法为核心搭建了原型系统。该原型系统使用了用户、项目和隐式反馈三个维度的数据,使用前两个维度的数据有效结合云模型,再结合隐式反馈数据,通过合理的权值来衡量三个维度数据,并有效结合了MapReduce计算框架来处理大数据问题。