【摘 要】
:
随着大数据时代的到来,信息过载已经成为一种常态,这就导致了从繁杂的信息中提取出对用户或企业有价值的信息越来越难。为了解决这种困境,推荐系统应运而生。推荐系统通过对
论文部分内容阅读
随着大数据时代的到来,信息过载已经成为一种常态,这就导致了从繁杂的信息中提取出对用户或企业有价值的信息越来越难。为了解决这种困境,推荐系统应运而生。推荐系统通过对用户已有的历史行为信息进行分析建模,挖掘出用户的喜好,以此为依据为用户进行个性化的推荐。然而,传统的数据处理平台不能满足推荐系统对海量数据的处理需求。Hadoop的出现很好地解决了这一问题。Hadoop是一个分布式的存储与计算平台,通过在分布式平台Hadoop上对推荐算法进行处理,解决了算法的可扩展性问题。同时,传统的推荐算法不可避免的存在一些缺陷,本论文对协同过滤算法进行了改进,并设计了一个组合推荐算法,实现了对用户更高效、精准的个性化推荐功能,实验证明,这些改进及组合是有效果的。论文主要研究工作如下:1、从HDFS与MapReduce两方面对Hadoop的整体架构与工作原理进行分析,介绍开源工具Mahout,为后续工作奠定基础。2、对几种常用的推荐算法进行研究,包括协同过滤推荐算法、K-Means聚类算法、贝叶斯分类算法等。针对协同过滤算法中用户主观评分性问题、矩阵稀疏问题、冷启动问题等缺陷进行改进,并对改进后的算法进行可行性与有效性的验证。3、为了解决单一推荐算法的缺陷,对组合推荐算法进行研究。结合具体的数据集,将K-Means聚类算法与协同过滤算法组合,设计既满足用户需求又准确高效的组合推荐算法。4、搭建Hadoop分布式平台,并结合Mahout工具进行组合推荐算法的设计与实现,通过对电影评分数据进行处理,完成对用户的个性化电影推荐功能。设计对比实验,对传统单机环境与分布式平台环境的运行效率进行对比,对传统的协同过滤算法与改进后的组合推荐算法的推荐结果的准确性进行对比,并分析实验结果,得出结论。
其他文献
随着Internet技术的飞速发展,分布式存储技术取得了长足的进步。同时,日益增加的用户和数据,也给分布式存储技术带来了新的挑战。另一方面,随着P2P计算模式的兴起、网络带宽的大
降低软件系统开发成本,提高开发效率是企业软件开发不断追求的目标。从技术角度来说,提高软件的复用效率,采用更先进的开发工具是提高开发效率的有效手段。 目前,国内部分空调
关键词识别是语音识别研究中的一个重要领域,其目的是从连续语音中检测并确认给定的若干个特定关键词。跟关键词识别相比,目前连续语音识别有资源耗费大,速度慢,抗噪能力不强等缺
随着互联网技术的迅速发展,越来越多的Web应用出现在人们生活的各个领域。这些独立的Web应用分散在Internet上,实现特定的业务功能,通过浏览器就能方便地进行使用。当开发新的We
DNA微阵列产生巨量的表达谱数据,用以挖掘特定的生物信息,而对表达谱数据的分析离不开有效而可靠的聚类算法。现有的聚类方法都是把具有相似表达模式的基因或样本归为一类,而
CAMEL4(CustomizedApplicationforMobileNetworkEnhancedLogic4)作为CAMEL的最新版本,是3GPP(3rdGenerationPartnershipProject)组织为适应3G承载与信令分离的特点以及用户对
下一代互联网NGI(NextGenerationInternet)是建立在各种有线、无线网络上的一个全IP网络。NGI的接入网部分是一个层次蜂窝的结构。对于终端用户而言,在某时刻,有可能同时处在多
Dwarf是一种语义压缩算法,它通过在数据立方计算过程中消除数据立方中的语义冗余来达到数据压缩的目的。相对于其它几种语义压缩方法,Dwarf具有更高的压缩比,但由于自身结构的缘
计费管理是网络管理的一个重要方面,计费系统对于网络资源的分配和建设,以及网络的正常运行具有非常重要的意义。ISAServer2004是微软公司推出的一款集代理服务器、防火墙和缓
在对桥梁结构发展历史进行论述的基础上,分析了结构分析技术对桥梁的重要意义。本文针对目前大跨复杂桥梁结构分析中存在的难点,对复杂桥梁结构仿真分析方法进行了探讨,并将仿真