论文部分内容阅读
在新闻传媒领域,存在着大量的用户对其看过的新闻的阅览及兴趣度等信息,因此如何在海量不断更新的新闻中挖掘出用户的阅览需求,量身定制用户的个性化新闻推荐,对于提升用户的体验变的尤为重要。此外,随着用户量、新闻量及其数据待处理量的不断增长,解决可扩展性的问题成为推荐系统发展中最主要问题,而将Spark分布式大数据计算平台与推荐系统结合可以有效地解决这个问题。论文首先总结分析了应用较为广泛的推荐算法、粒子群算法、基于密度的聚类算法-DBSCAN聚类等。同时,文中详细说明了在分布式计算平台Spark中,最为主要的三个组成部分:Spark RDD(弹性分布式数据集)、Spark MLlib(机器学习功能程序库)以及Spark运行框架的基本工作原理。并对基于LFM隐语义模型的协同过滤推荐算法及其并行化实现进行了针对性研究。其次提出了基于粒子群算法的DBSCAN聚类算法,简称为PSO-DBSCAN算法,对LFM算法进行了深入分析并用时间函数与用户相似度计算函数对其进行改进,最终提出了结合PSO-DBSCAN算法与改进LFM算法的融合推荐算法:用时间函数对用户-物品兴趣度矩阵进行加权处理,再用LFM模型对该矩阵进行降维以及填充缺失值处理,之后对矩阵中用户进行PSO-DBSCAN密度聚类,再在目标用户所属类别簇中通过用户相似度计算函数找到目标用户的k个最近邻居,最后根据最近邻居的评分数据加权预测目标用户对物品的评分值,采取top-N新闻推荐方式进行推荐,在Spark分布式平台上实现融合推荐算法的并行化。之后,在Spark集群上利用新闻数据集对所提出的融合推荐算法的性能进行测试与分析,从实验结果中可以看出,融合推荐算法的准确度要比传统算法有显著的提升,同时,还对算法性能在分布式环境和单机环境下作了对比,发现分布式环境下的推荐算法执行速率更高。最后,实现了以融合推荐算法为核心的个性化新闻推荐系统,并对新闻推荐的结果进行展示。图32幅;表8个;参51篇。