基于Hadoop的推荐系统研究与应用

被引量 : 0次 | 上传用户:FIGOWEN7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前互联网信息已经深入到人们的生活中,人们对于信息的获取也主要来自于网络。近年来,随着信息时代的来临,每天都有大量的信息产生,于是就产生了信息过载问题。如今用户对个性化信息的需求越来越高,如何从这些大量信息中找出符合自己需求的信息是急待解决的问题,为此学者们进行了许多相关的研究,其中有效的技术方案就是推荐系统。作为解决信息过滤问题主要的工具,推荐系统根据用户在日常行为中表现出来的对某些信息的兴趣程度作为推荐的依据,为用户推荐各种信息。在此过程中过滤一些不匹配用户需求的信息,以此达到信息提供者与用户之间需求的双赢目的。推荐系统与搜索引擎不同,不需要用户提出自己的需求关键字在互联网资源上进行查找,而是直接给用户推荐相关信息。目前影响推荐技术发展的关键因素在于现有资源的数量级不断扩大,数据稀疏性等问题。为了更好的解决推荐系统发展中存在的这些问题,提高协同过滤算法的准确性,本文以解决这些问题为目标,对以下三个方面进行了讨论与研究:①重点研究了协同过滤算法在推荐系统中的应用,提出了数据稀疏度导致的协同过滤推荐准确度不高问题,提出了混合推荐算法的概念。②本文思考利用云计算平台来解决传统协同过滤算法在实施过程中遇到的可扩展性及实时性问题,采用Apache的开源项目Hadoop作为算法的开发平台。在充分查阅相关文献了解Hadoop的技术之后,本文重点分析了制约Hadoop性能的关键问题,提出了相应的改进方案SHadoop,提高了Hadoop在大规模数据上的处理能力,充分体现了云计算与推荐系统结合的优势。③本文完成了一个电影推荐系统的原型,并提出改进的推荐系统的评价指标,对常用的协同过滤算法与本文提出的混合推荐算法进行对比实验。本文通过对以上研究内容进行详细讨论,并结合具体实验进行验证。本文中的实验分为两组,第一组实验结果表明在数据集MovieLens以及改进的评价标准下混合推荐算法能有效的提高协同推荐算法的准确度。第二组是SHadoop与传统Hadoop在海量数据集下的作业情况对比实验,结果表明SHadoop相比传统Hadoop而言,提高了大规模数据处理的能力,可扩展性良好。在云计算平台上实现推荐系统,为推荐系统以后的研究工作指明了新的研究方向。
其他文献
  试验以腐熟的玉米秸秆、牛粪、草炭、蛭石为原料,按照不同比例配制出6种基质,以辣椒为试验材料进行穴盘育苗。依据不同基质的理化性质以及幼苗生长与生理指标进行综合分析,
国际政治经济形势复杂多变,金融危机影响深远,相比境内工程项目,身处项目所在国陌生社会环境的境外项目面临着更大的财务风险。如何加强境外工程项目财务风险的管控,采取积极
基于向量自回归模型 ,本文利用脉冲响应函数和预测方差分解方法对我国金融政策的作用时滞做了具体测算。作为比较 ,本文也采用了时差相关系数法。根据 1 990年 1月至 1 997年
“临时救济”一直是英美法上的概念,但在中国民事诉讼法学研究中把该概念外延扩大,囊括了大陆法系中的类似概念。例如德国民事诉讼法中的“民事保全”,包含“假扣押”与“假
<正>该课获2014年第四届"中语杯"全国优质课评比一等奖师:同学们好!我来自山东,虽然是第一次来湖北,但我早就知道荆楚大地人杰地灵,还是鱼米之乡。来到这里后,我被茂林修竹、
直接接触冷凝器随石油石化和能源电力等行业的不断发展,应用愈加广泛,规整填料则具有传热传质效率高、能耗低、压降小的特点。然而由于汽液流动形态复杂多变,且冷凝过程极为复杂
研究了不同基质配比对番茄幼苗生长的影响,以期筛选出理想的番茄育苗基质配方。试验结果表明,T3处理(草炭∶稻草=3∶5)和T7处理(菇渣∶稻草=2∶1)的番茄株高、茎粗、地上部鲜
当前很多大型软件都不是采用单一的实现技术,面对于不同的实现技术,要求测试人员在不同的平台下分别对所测试的部分进行测试。为了提高自动化测试的效率,减少测试开销,提出了
涉官新闻网络传播过程中,网民围观已经成为一种信息化时代普遍的网络现象,深刻地影响着现实社会生活和政治生活,对我国政府形象建设带来了严峻的挑战。涉及到官员贪污腐败、政府
在三维计算机视觉中 ,消失点和消失线扮演着极其重要的角色。在此利用场景中常见的平行线和正交线的特点 ,通过绝对二次曲线图像和消失点的计算 ,测量场景中其他几何结构的关