基于MapReduce框架的混合推荐算法

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:andyvssammi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网信息的爆炸式增长、信息的种类变得纷繁复杂以及新兴电子商务服务的出现使得信息过载的情况变得越来越严重。因而在信息过滤工具中,推荐系统的地位也变得越来越重要。在实际使用的系统中,使用最多的个性化推荐方法就是协同过滤算法。但随着推荐系统规模的不断扩大,传统的推荐算法大多都会遇到严重的计算瓶颈,且大量的数据并未显著提高推荐算法的精度。因此,为了应对不断增长的数据规模,对协同过滤推荐算法的并行化改造是十分必要的。本文对基于MapReduce并行计算框架的协同过滤推荐算法的设计及实现进行了研究。首先使用MapReduce框架对算法进行并行化,之后针对不同算法进行优化。对于基于物品的协同过滤算法,使用共现矩阵替换相似度矩阵,降低计算相似度矩阵所消耗的时间;在计算推荐结果的时候,使用Top-N的方法选择最近邻进行计算,降低算法的计算量。对于基于用户的协同过滤算法,将数据使用聚类的方法进行分组。对每个分组的数据,将同一分组的用户作为最近邻,计算组内推荐值;使用所有的中心用户作为近邻,计算出组间推荐值。将这三个推荐结果作为训练数据,实际评分作为输出结果,使用线性回归的方法进行建模。针对这个模型,定义损失函数后,使用梯度下降的方法求出最优的混合比例。具体来说,通过将数据进行十折交叉,划分出多个数据分组,通过不同的Top-N值及数据分组,可以训练出不同的混合参数,再使用这个参数对所有的数据分组计算出MAE值和RMSE值的均值。通过比较计算出的均值,选择最优的混合系数和Top-N值。在实验中通过对前述两个算法所产生的三份推荐结果进行混合来产生最终的推荐结果,并对推荐结果的精度进行了验证。同时针对程序的运行时间,评估了改进后的算法的性能。实验结果表明,修改后的协同过滤算法,不仅提高了协同过滤算法对大规模数据的处理能力,同时通过对不同结果的混合,提高了算法的精度。与基于物品的协同过滤算法相比,算法的准确率有明显提升,且程序运行时间有明显的下降;与基于用户的协同过滤算法相比,算法的准确率提升明显,而通过分组的方式也降低了算法在计算相似度矩阵和计算结果所消耗的时间,效率有明显提升。
其他文献
随着云计算技术的发展,云数据库服务成为数据远程存储和处理的主要方式,它具有按需付费、按需扩展、高可用性和存储整合优势。通过云数据库服务商管理云端数据库可获得数据备
PaaS(Platform as a Service)云平台是一个由硬件基础设施与软件系统构成的、分布式的计算机集群系统。用户可以使用PaaS云平台上配置的资源开发和部署应用服务程序,并管理应
复杂网络作为复杂性学科中炙手可热的研究课题正受到越来越多研究者的关注,其基本理论已经渗入到各个学科和领域当中,作为该项研究重要分支的复杂网络关键节点识别技术,既具
在当下数据大爆炸的时代,如何有效的处理大规模数据一直是工业界和学术界研究的热点。本文针对大规模数据采用基于分而治之的思想进行聚类可视分析,结果表明分而治之对处理大
云存储的灵活性和即用即付的存储服务方式,使其受到广泛欢迎。然而,存储在云端的数据可能会因为软/硬件故障或者人为失误等原因造成丢失或者损坏,因此,验证存储在云端数据的
在科学技术突飞猛进的时代,人们对气象预测精确性的要求越来越高。这不仅仅关系到农业的发展,还关系到人们的衣食出行以及政府提前做好对恶劣天气的防控措施等。与人类生存息息
Web服务以其松散耦合、语言无关、平台独立等特点已经成为Internet计算环境下信息、服务和业务能力的主要开放与提供形式。业务开发和使用者如何在众多的资源中快速、准确地
作为中国数学机械化的里程碑,吴方法在科学技术和应用工程领域中有着极为广泛的应用价值。随着吴方法应用范围日渐拓宽,其所要处理的应用问题也日趋复杂。对于这些应用问题来
近年来,特别是党的十八大以来,在创新驱动国家战略的引领下,在大众创业,万众创新的大时代背景下,互联网+高校信息化管理成为了炙手可热的话题。作为学校信息数据量巨大的部门
在营销领域,怎样使用有限的资源产生最大的营销效果是其追求的目标,而选取最初始的营销对象就显得尤为重要。影响力最大化原则就应运而生。影响力最大化就是实现选取固定数量的营销对象,达到最大的影响力传播的目的。影响力最大化在营销领域的“口碑效应”现象、“病毒式营销”等推广方式上得到了充分的体现。研究人员根据节点在网络中的影响力传播规律,建立与之相适应的影响力传播模型,并根据不同模型得出具体影响力最大化算法