论文部分内容阅读
当前处在一个网络信息大爆炸的时代,网络信息超载已经成为一个急需解决的问题,推荐系统是一种解决信息超载的有效手段,通过推荐系统可以帮助用户快速发掘出潜在有价值的内容。传统的推荐模式是在单机上部署运行推荐系统,但是由于目前网络用户数量和待推荐内容的数据量十分巨大,已经超出了传统推荐系统的处理能力,因此有必要研究基于分布式平台Hadoop的推荐系统。通过采用基于Hadoop平台的推荐系统能够解决传统推荐系统目前存在的问题,但同时基于Hadoop推荐系统通常存在数据稀疏性、冷启动、推荐结果缺乏新颖性等问题。本文分析了这些问题产生的原因,将设计高效可扩展的分层混合推荐模型作为研究的重点。结合分布式文件系统HDFS以及MapReduce编程模型,设计了基于MapReduce编程模型分层混合推荐算法的分布式并行化实现,并在此基础上实现了一个基于Hadoop平台的推荐系统原型。本文的主要工作内容如下:1.研究了基于内容推荐和协同过滤推荐(这两种技术的)具体算法流程,分析这两种推荐技术的优缺点,并对这两种算法作了自适应的改进。针对协同过滤推荐产生数据稀疏性、冷启动,以及基于内容推荐缺乏新颖性的问题,研究并设计了基于这两种改进推荐算法的分层混合推荐系统,来解决目前推荐系统存在的这些问题。2.研究了Hadoop运行机制,分析分布式文件系统HDFS和MapReduce编程模型的具体作业流程。结合混合推荐算法来设计实现混合推荐算法的MapReduce分布式并行化方案,并且对混合推荐算法的MapReduce作业流程优化处理。在此基础上实现一个基于Hadoop的推荐系统原型,系统能够通过一些基本的功能测试,并且能够稳定运行。3.结合协同过滤推荐和基于内容推荐,提出了一种分层混合的推荐模型来提高推荐系统的推荐质量。并在此基础上设计实现了推荐系统原型,原型系统设计阶段重点设计了基于用户的协同过滤和基于物品的协同过滤算法的MapReduce实现。4.研究了Hadoop、mahout等开源软件,结合mahout的一些聚类算法,以及推荐算法的实现。安装、部署这些开源软件,在mahout开源算法的基础上改进推荐系统原型。