基于Spark平台的实时流计算推荐系统的研究与实现

被引量 : 30次 | 上传用户:yichunjekiyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户在面对海量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低,这就是信息超载问题。推荐系统是一种解决信息超载问题非常有效的办法,它根据用户的信息、兴趣等,将用户感兴趣的信息或商品推荐给用户。然而,现有的推荐系统大多是通过定期计算来更新推荐结果,造成推荐结果不够精确,这就是推荐系统的实时性问题。另外,对于新加入的用户或商品由于缺少必要的数据,因此无法对其产生推荐,这就是所谓的冷启动问题。针对上述问题,本文旨在解决推荐算法的冷启动问题和推荐系统的实时性问题,并设计与实现一个基于Spark实时流计算的推荐系统,即根据实时数据更新推荐结果。本文的主要研究内容包括:(1)针对推荐算法的冷启动问题,提出基于聚类与特征映射的矩阵分解算法。该算法首先对用户/商品的属性信息进行聚类,得出新用户/新商品的k个最近邻。然后对新用户/新商品进行特征映射,用k近邻的特征信息计算出新用户/新商品的特征向量,有了这些特征向量就可以对新用户/新商品进行推荐,解决了算法的冷启动问题。实验表明本文提出的基于聚类与特征映射的矩阵分解算法的推荐结果更加精确。(2)针对推荐系统的实时性问题,设计一个能够实时计算的流处理架构。该架构把推荐系统分成离线计算和在线计算两部分,能够充分利用传统的离线推荐算法,并结合在线处理方法,提高推荐系统实时计算的能力。所设计的实时推荐系统采用Spark做在线处理,并且能够根据用户在线评分和历史评分数据集来实时计算,实现了推荐结果的实时更新。(3)基于Spark的实时流计算推荐系统的设计与实现。首先对实时流计算的推荐系统进行需求分析,包含功能需求分析、性能需求分析和总体架构分析。然后对系统进行设计,包括三个关键模块:一是对模拟用户评分模块进行设计,包含数据的范围、数据的格式和数据产生的频率及数量等。二是对基于Spark Streaming的实时流计算模块进行设计,包含实时流计算和一些关键性的功能的设计。三是基于MLlib对推荐引擎模块进行设计,包含模型的训练、模型的测试和推荐商品等。最后完成了实时流计算的推荐系统的实现,主要实现模拟用户评分、实时流计算和推荐引擎三个主要功能。
其他文献
目的考察注射用头孢噻肟钠他唑巴坦钠制剂(6∶1)的稳定性,为确定产品有效期提供依据。方法本品经影响因素试验、加速试验和长期留样的稳定性试验,考察其性状、pH值、溶液的澄
试论经济体制转变与经济增长方式转变的关系权应文《中共中央关于制定国民经济和社会发展的“九五”计划和2010年远景目标的建议》(下简称《建议》)指出:“实现‘九五’和2010年的奋斗目
目的改进鞣酸软膏制备工艺,提高生产效率和鞣酸软膏的质量。方法按改进工艺配制鞣酸软膏,并进行质量控制。结果改进工艺使鞣酸软膏制备方便快捷,软膏细腻,均匀度好,符合质量
<正> 一、控制风险的涵义和特征 所谓控制风险是指审计人员作出审计结论时发生的原始性错误风险。具体地说是被审计单位的管理人员进行内部控制和审计人员实施审计之前,被审
聚氨酯泡沫复合夹层板是一种可广泛应用于防护工程中的新结构形式 ,据此对聚氨酯泡沫材料夹层板进行了爆炸荷载下有限元分析 ,并与粘钢混凝土板及混凝土板两种板结构进行了比
马建忠对于虚字的研究颇有特色,他在论述虚字用法的同时也追溯其来源,出现类似于现代语法化的研究,暂称之为"语法化意识"。这种朴素的语法化意识在《马氏文通》连字章中体现
企业的利润来源主要在于收入的增加与成本的减少,因此成本的多少对于企业是否盈利至关重要。在企业运营过程中,成本核算问题越来越受到普遍关注。建立以责任成本为中心的成本
简要介绍了证券投资面临的风险并介绍了计量风险的方法。重点介绍了组合证券投资这一规避风险的方法。最后提出一些管 理和防范风险的措施。
个人所得税是我国目前唯一参与居民收入"直接"调整的直接税税种,基本功能是调节居民收入分配。但由于我国现行个税制度不健全不完善,个税调节收入分配差距的作用并不明显。为
近几年由于我国大豆需求急剧增加,导致压榨行业大规模扩张,使得原本利润丰厚的压榨行业处于临严重的供大于需的局面并带来一系列的行业整合与并购。本文主要分析了以大豆压榨