论文部分内容阅读
目前互联网信息已经深入到人们的生活中,人们对于信息的获取也主要来自于网络。近年来,随着信息时代的来临,每天都有大量的信息产生,于是就产生了信息过载问题。如今用户对个性化信息的需求越来越高,如何从这些大量信息中找出符合自己需求的信息是急待解决的问题,为此学者们进行了许多相关的研究,其中有效的技术方案就是推荐系统。作为解决信息过滤问题主要的工具,推荐系统根据用户在日常行为中表现出来的对某些信息的兴趣程度作为推荐的依据,为用户推荐各种信息。在此过程中过滤一些不匹配用户需求的信息,以此达到信息提供者与用户之间需求的双赢目的。推荐系统与搜索引擎不同,不需要用户提出自己的需求关键字在互联网资源上进行查找,而是直接给用户推荐相关信息。目前影响推荐技术发展的关键因素在于现有资源的数量级不断扩大,数据稀疏性等问题。为了更好的解决推荐系统发展中存在的这些问题,提高协同过滤算法的准确性,本文以解决这些问题为目标,对以下三个方面进行了讨论与研究:①重点研究了协同过滤算法在推荐系统中的应用,提出了数据稀疏度导致的协同过滤推荐准确度不高问题,提出了混合推荐算法的概念。②本文思考利用云计算平台来解决传统协同过滤算法在实施过程中遇到的可扩展性及实时性问题,采用Apache的开源项目Hadoop作为算法的开发平台。在充分查阅相关文献了解Hadoop的技术之后,本文重点分析了制约Hadoop性能的关键问题,提出了相应的改进方案SHadoop,提高了Hadoop在大规模数据上的处理能力,充分体现了云计算与推荐系统结合的优势。③本文完成了一个电影推荐系统的原型,并提出改进的推荐系统的评价指标,对常用的协同过滤算法与本文提出的混合推荐算法进行对比实验。本文通过对以上研究内容进行详细讨论,并结合具体实验进行验证。本文中的实验分为两组,第一组实验结果表明在数据集MovieLens以及改进的评价标准下混合推荐算法能有效的提高协同推荐算法的准确度。第二组是SHadoop与传统Hadoop在海量数据集下的作业情况对比实验,结果表明SHadoop相比传统Hadoop而言,提高了大规模数据处理的能力,可扩展性良好。在云计算平台上实现推荐系统,为推荐系统以后的研究工作指明了新的研究方向。