论文部分内容阅读
随着互联网技术的高速发展,人们获取信息的能力得到巨幅升,许多生活方式都随之发生变化,网络小说作为电子书籍中的一种消遣工具也得到了高速发展。但是目前网络小说种类繁多,书籍总量也非常庞大,用户难以从大量小说中挑选到自己喜欢的内容,因此对于一个小说网站而言,如何为用户筛选出符合用户当前兴趣偏好的小说列表是一个急需解决的问题。推荐系统作为一种解决信息过载的方法目前已经在很多领域被应用,但是在小说领域的研究相对较少,而且已有的研究方法和传统的图书推荐基本一致,没有考虑网络小说的一些特性,同时随着用户数量与物品信息的不断增长,算法运行所消耗的资源越来越多,加大了应用到实际生产环境的难度。针对以上几点分析,本文主要完成了以下几点工作:1)针对用户评分不准确以及用户兴趣迁移问题,出利用用户已阅读的章节数来构建细粒度评分规则的方法,并引入了基于时间的用户行为权重衰减机制,升系统对用户兴趣改变的捕获能力,同时采用了基于小说热度的热门惩罚方法,高了推荐的多样性和新颖性。2)出将基于内容的推荐算法与结合标签排行的协同过滤融合算法相结合的混合推荐算法,解决单一算法存在的缺陷。其中结合标签排行的融合算法将用户偏好标签进行扩展,并将扩展向量与初始推荐列表进行融合,以此升推荐列表中符合用户短期偏好类别的小说排行;而基于小说内容的推荐算法升了推荐结果的内容相关性,同时解决了物品冷启动以及矩阵稀疏问题。3)设计并实现基于上述混合算法的网络小说推荐系统,利用Hadoop文件系统存储海量用户行为数据以及小说文本数据,采用Spark分布式计算框架完成每日推荐任务。本文通过大量实验验证了混合推荐算法的有效性,设计并实现的推荐系统能够在海量数据基础上完成高效、精准推荐,具备较高的使用价值。