基于Spark的分布式混合推荐算法的研究与应用

来源 :北方工业大学 | 被引量 : 5次 | 上传用户:SFAFFDAF
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及与信息技术的快速发展,网络上的信息数据呈指数快速增长,面对复杂多样的海量数据,用户难以从中快速提取有强烈需求的数据。目前,越来越多的网络用户通过电商平台、论坛的商品评论信息来了解商品的优缺点。而服务商也可以通过分析商品的评价数据更好的挖掘用户的需求,进而提升用户对商品的满意程度。在海量的图书评论数据中,如何基于图书的评分、评论信息给用户推荐感兴趣的图书是本文的研究重点。本文以豆瓣网的上亿条图书评论作为真实的数据来源,在Spark分布式计算框架下,研究并实现了针对海量数据的分布式混合推荐算法。首先,本文利用朴素贝叶斯分类算法对有缺陷的数据集合进行情感分析,经过中文文本情感分析计算出评分值,将修补后的结果填充到训练数据集中。其次,在Spark分布式计算框架下,将基于矩阵分解的ALS协同过滤算法以并行化方式实现。以此为基础,研究并改进了一种基于用户图书偏好特征相似度的算法,此算法根据本文数据集的多样性,计算出用户之间的相似度,通过找到与某用户最相似的用户,可以在推荐时将相似用户的偏好特征与初步推荐结果进行加权整合,使得推荐结果更加准确。最后,将基于ALS的协同过滤推荐算法与基于用户图书偏好特征相似度算法的结合,基于ALS的协同过滤推荐算法可以根据用户对图书的评分来构建出推荐矩阵并生成推荐模型,基于用户图书偏好特征相似度算法计算出与当前用户相似度最高的用户及其图书偏好,通过对图书偏好计算结果与协同过滤推荐结果进行加权整合,得到更加精准的推荐结果。实验表明,本文设计并实现的基于Spark的分布式混合推荐算法在海量数据中,不仅能够提高推荐模型构建的效率,还能够提升推荐的准确度,同时也具有相对较好的可扩展性。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
目的运用Meta分析评价锌和维生素A辅助治疗肺结核(PTB)患者的临床疗效。方法检索中国生物医学文献数据库(CBM)、中国期刊全文数据库(CNKI)、维普数据库(VIP)、Pub Med和Cochrane数据
介绍了采用物化法治理聚氯乙烯废水的设计参数、工艺流程和构筑物.采用物化法处理氯碱生产废水,实现了处理效率高,占地面积小,工程投资低等优点,处理后各项污染指标均达到排
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
你肯定想不到,韩剧《大长今》中青春逼人的长今扮演者李英爱已是34岁“高龄”,她到底有什么驻颜方法呢?有幸与她长谈的笔者,在一问一答中了解到她的护肤之道
期刊
架着一副时髦而具有书卷气的金丝眼镜,裴勇俊一直是电视界的“贵公子”。他在韩国女生心目中的地位无人可以取代,难怪首尔随处可见他拍的广告,从服装、手机到食品.甚至连银行也邀
<正>手机终端的安全级别不够高、手机平台的身份识别难以实现、信用体系缺失,成为制约移动支付发展的几大难题尽管与上海捷银合作,推出了手机支付业务,但上海浦东发展银行个
《金瓶梅》是摹写世情的杰作。在小说中,主要人物相继死于非命,但是这种死亡叙事却没有得到应有的关注。从情感维度、写实特色和结构方式三个方面来论述《金瓶梅》中的死亡叙事
丙烯制冷压缩机是乙烯装置的心脏设备,必须要满足长时间的安全、稳定运转。由于丙烯制冷压缩机是多级缸体内抽加气结构,很难对缸体内混合的气体参数进行直接测量,而现有的丙