论文部分内容阅读
移动互联网和智能手机的普及已改变人们的生活方式。浏览新闻资讯几乎是大部分人在生活中必不可少的一部分,方便快速地获取自己感兴趣的新闻资讯是人们的重要需求。本文通过对传统的推荐系统进行研究和探索,特别研究分析基于邻域的协同过滤算法,针对其在推荐过程中依赖一张巨大的相似度表且该表更新成本很高,很难做到频繁更新来满足实时推荐需求的缺陷。因此,本文提出的一种基于改进的K-means聚类的协同过滤算法能够解决此问题。本论文的研究具有一定的应用价值。论文的研究内容及研究工作如下:1、提出一种改进的K-means算法使其适合在海量高维数据集上进行聚类。由于用户-项目评分矩阵是一种海量高维的数据集,无法使用K-means算法直接对其进行聚类,本文通过对局部敏感哈希算法和密度聚类算法进行深入研究,并进行对照实验比较几种哈希降维算法的新闻数据集上的实际性能。提出一种改进的K-means算法使其适合在海量高维数据集上进行聚类。该算法的主要思想是使用一种基于次数排序的局部敏感哈希算法先对数据集降维和粗聚类,然后采用基于密度峰值的聚类算法进行预处理得到初始簇数和簇心,最后采用预处理的结果在降维后的数据集进行K-means聚类并得到用户分类。2、提高用户相似度表的空间利用效率并允许对该表进行频繁更新。把提出的改进K-means结合LFM模型应用到基于邻域的协同过滤中,通过三个实验验证优化协同过滤算法的有效性。在不同类别用户生成一张用户相似度表,假设每个类别的用户数量分布均匀,那么所有用户相似度表的总规模将下降为传统用户相似度表的1/K,单个类别的相似度表由于规模减小而降低更新代价,因而满足实时推荐需求。考虑到新闻推荐系统中时间上下文对用户相似度的影响,本文引入时间衰减因子到相似度公式中并得到推荐质量的提升。3、基于改进的K-means的协同过滤算法设计并实现一个新闻推荐系统。基于提出的改进K-means的协同过滤算法,本文设计并实现一个新颖的新闻推荐系统。该系统基于Spark平台实现推荐算法,利用爬虫技术获取新闻源,配套有Android新闻客户端与新闻发布管理平台。改进的新闻推荐系统更具空间优势并支持实时推荐,对此类推荐系统的设计具有一定的借鉴意义。