论文部分内容阅读
随着科学技术的飞速发展,人们每天被各种各样的数据所包围,信息已严重过载。与此同时,人们生活节奏越来越快,用来供娱乐和放松的时间越来越短。如何从海量的信息中挖掘出用户感兴趣与有价值的信息,特别是在用户没有目的的情况下,这一问题日渐成为各大机构和学者所关注的问题。个性化推荐系统成功缓解了该问题。目前国内外的各大推荐系统中,如视频推荐系统,电子书推荐系统、音乐推荐系统等,均普遍存在长尾效应的现象。长尾效应的存在严重影响了推荐系统的资源利用率、推荐结果的多样性,以及不利于企业谋取长远利益。本论文致力于降低长尾效应对推荐系统的负面影响,在不影响系统准确率的前提下提高系统的资源利用率。本论文致力于以下工作:第一、通过大量阅读国内外科技文献,深入研究推荐系统中出现的长尾效应现象,分析该现象出现的原因,明确对长尾效应进行研究的意义,调研当前各国学者专家对该问题的研究现状,弄清各算法的原理,比较各解决方案的优缺点;第二、对本论文所涉及到的关键技术进行深入研究,为进一步降低长尾效应对推荐系统造成的负面影响,本文提出了改进的协同过滤长尾物品推荐算法 PGSim-CF(PageRank Similarity Collaborative Filtering Algorithm)。该算法是对项亮在推荐系统实践一书中介绍的传统基于用户的协同过滤UserCF算法进行改进,具体的改进过程为:首先利用PageRank算法计算出系统中各物品的初始权值,然后通过同类物品中热门物品的权值去优化冷门物品的权值,得到各物品的最终权值,最后将最终权值融合到协同过滤算法相似度计算的过程中。实验结果表明,PGSim-CF算法同传统的基于用户的协同过滤算法UserCF、SimCF-ACT算法、IRM2算法相比具有更好的性能;第三、结合某互联网视频网站的用户需求,完成了互联网视频网站的推荐系统架构设计、底层存储设计、数据清洗、模型参数调优、推荐结果的分析等工作,重点完成了推荐引擎的设计,实现了热门视频实时推荐算法以及基于评分的PGSim-CF和UserCF的离线推荐算法;第四、对某运营商视频点播系统进行需求分析,重点完成了该点播系统的数据清洗以及推荐引擎搭建相关的工作。数据清洗主要是从海量的数据中挖掘出用户观看视频的信息、以及在观看视频中产生的播控信息,通过对这部分数据的分析计算得出用户有效观看时长以及观看时长占比率。最终提供了热门物品的实时推荐算法以及基于用户观看时长占比率PGSim-CF的离线推荐算法。