基于Spark平台的个性化新闻推荐系统研究

来源 :华北理工大学 | 被引量 : 1次 | 上传用户:jxdytmj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在新闻传媒领域,存在着大量的用户对其看过的新闻的阅览及兴趣度等信息,因此如何在海量不断更新的新闻中挖掘出用户的阅览需求,量身定制用户的个性化新闻推荐,对于提升用户的体验变的尤为重要。此外,随着用户量、新闻量及其数据待处理量的不断增长,解决可扩展性的问题成为推荐系统发展中最主要问题,而将Spark分布式大数据计算平台与推荐系统结合可以有效地解决这个问题。论文首先总结分析了应用较为广泛的推荐算法、粒子群算法、基于密度的聚类算法-DBSCAN聚类等。同时,文中详细说明了在分布式计算平台Spark中,最为主要的三个组成部分:Spark RDD(弹性分布式数据集)、Spark MLlib(机器学习功能程序库)以及Spark运行框架的基本工作原理。并对基于LFM隐语义模型的协同过滤推荐算法及其并行化实现进行了针对性研究。其次提出了基于粒子群算法的DBSCAN聚类算法,简称为PSO-DBSCAN算法,对LFM算法进行了深入分析并用时间函数与用户相似度计算函数对其进行改进,最终提出了结合PSO-DBSCAN算法与改进LFM算法的融合推荐算法:用时间函数对用户-物品兴趣度矩阵进行加权处理,再用LFM模型对该矩阵进行降维以及填充缺失值处理,之后对矩阵中用户进行PSO-DBSCAN密度聚类,再在目标用户所属类别簇中通过用户相似度计算函数找到目标用户的k个最近邻居,最后根据最近邻居的评分数据加权预测目标用户对物品的评分值,采取top-N新闻推荐方式进行推荐,在Spark分布式平台上实现融合推荐算法的并行化。之后,在Spark集群上利用新闻数据集对所提出的融合推荐算法的性能进行测试与分析,从实验结果中可以看出,融合推荐算法的准确度要比传统算法有显著的提升,同时,还对算法性能在分布式环境和单机环境下作了对比,发现分布式环境下的推荐算法执行速率更高。最后,实现了以融合推荐算法为核心的个性化新闻推荐系统,并对新闻推荐的结果进行展示。图32幅;表8个;参51篇。
其他文献
探讨了粉碎后的新鲜香附溶剂萃取物对一些储粮害虫的活性作用。结果表明:香附粗提物在1‰的浓度(W/W)时,对锈赤扁谷盗成虫有较强的忌避作用;采用微量点滴法,香附粗提物下层黄
阐述了梨果实的生理特性及其耐贮性;介绍了梨果的采收、整理、包装及预冷方法;简介了梨果的窖藏、通风库贮藏、机械冷藏、气调贮藏的相关技术。
研究北京西部地区污水厂进水中砂砾粒径分布和浓度,考察了机械旋流沉砂池对不同粒径区间砂砾的除砂性能。结果表明:进水中≥200μm的砂砾质量占砂砾总质量的13%;106~200μm的
某厂生产的某批次钢板探伤检验发现大面积分层缺陷,通过对缺陷位置进行取样分析,对比同一炉次钢板的加热、轧制、缓冷工艺,找出了导致探伤检验不合格的根本原因。连铸坯料内
高精度标准齿轮是机械工业中必需的精密传动部件,其广泛应用于仪器制造业与国防领域,它的制造精度是一个国家齿轮制造水平的一个重要标志。作为齿轮加工中的一个重要指标,齿
本文回顾分析了我国城镇儿童医疗保障的发展历程,着重比较了上海与镇江两地儿童医疗保障的实践探索,对当前居民医疗保险的自愿参保、家庭筹资与风险分担进行了讨论分析。
普惠金融理念注重弱势群体享受金融服务的权利,正在被社会各界所接受。文章从普惠金融视角出发,阐释了当前新型农村金融定位、发展现状与前景、存在的问题与困境,提出了加大
运用新制度经济学合约、租值消散、交易费用等相关理论,将医生视为医生—医院—药商利益集团的主导者,从医生租值的角度分析了基本药物短缺等问题的经济学根源及供求机制。指
<正>I.动名词复合结构的构成1.物主代词或名词所有格+动名词,即"sb.’s/sth.’s+V-ing";2.人称代词宾格或名词普通格+动名词,即"sb./sth+V-ing"。上面提到的代词或名词所有格
乳酸作为体内糖代谢的中间产物,在正常情况下保持着产生与排泄的平衡,但在某些病理情况下,如由呼吸或者循环衰竭导致的组织缺氧,会引起血乳酸浓度的升高。血乳酸升高可极大地