基于Spark机器学习的推荐系统的研究与实现

来源 :中南民族大学 | 被引量 : 0次 | 上传用户:robertrobertrobert
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着海量数据时代的来临,如何从海量数据中获取到有用的信息是一个重要的难题,也就是信息过载问题。推荐系统已成为解决信息过载最有效的手段之一。与此同时,随着数据量的增大,推荐系统也面临着诸多的问题和挑战。比如数据稀疏性和海量数据处理能力的问题,这些问题从而引出了如何从现有用户的数据中找到用户的兴趣偏好。在现实的生活场景中,很少有用户对浏览过的物品进行直接评分,从而导致数据的稀疏性,并且显式的物品评分还不能全面表达用户对该类物品的偏爱趋势。相对于用户的显式数据而言,其隐式的数据具有更大的研究价值,比如浏览记录、时长等,通过对隐式数据的研究可以更准确地发现用户感兴趣的物品。如何从海量的数据中快速计算出该用户感兴趣的物品列表对于推荐系统来说是一个很大的挑战。伴随着机器学习的普及,利用建立推荐模型可以快速处理海量的用户数据并计算出该用户感兴趣的物品列表。面对现有推荐系统的这些难题,本文设计了基于Spark机器学习的推荐系统,其主要工作如下:第一,通过基于模型的协同过滤算法分析,将推荐问题转化为机器学习的分类和预测问题。首先将用户数据构建成用户-物品矩阵,然后利用奇异值分解算法的降维处理和最小交替二乘法的损失函数优化,最后提出基于最小交替二乘法的隐式反馈的优化设计,从而解决了用户数据稀疏性问题。第二,为了解决海量数据处理的难题,本文利用基于隐式反馈的最小交替二乘法,将用户的历史行为隐式数据集训练出一个推荐模型,并且包括了数据的预处理和对该模型的性能改进。最后将模型部署在Spark大数据处理平台并计算出针对某一用户的推荐结果,同时搭建了基于Spark Web UI和Ganglia的组合性能监控平台来监控Spark大数据平台的数据处理过程,对集群资源的分配和调整提供了可靠的依据。本文实验结果表明,随着Spark集群节点数量的增加,数据集大的数据处理加速比的增速比较快,从而可以说明,面对海量的数据处理,Spark集群能够有比较高的数据处理性能。在其他的模型参数相同的情况下,相对于最小交替二乘法显式反馈推荐模型而言,不同的迭代次数下的最小交替二乘法隐式反馈推荐模型的RMSE值普遍要偏低,说明将隐式的用户数据通过最小交替二乘法训练出来的推荐模型更能准确找出用户偏好的物品列表。
其他文献
下面10个问题,如果您觉得孩子符合的情况为多数。则说明孩子的心理是比较健康的。
智能天线技术可以极大地增弼卫星通信系统的抗干扰性能。讨论应用于卫星移动通信终端的智能天线技术,提出了利用智能天线技术的卫星移动通信终端的两种可能的系统实现方案。从
近年来,在利率市场化和金融脱媒的双重市场背景下,以本地第二和第三产业对公信贷业务为主的城市商业银行,不约而同地向个人消费、个人经营和小微企业经营等零售领域转型发展
目的通过回顾分析健康体检者蛋白尿的流行现况及相关危险因素,为蛋白尿的防治提供决策依据。方法资料选自徐州市中心医院体检中心数据库2006~2009年完成的体检有效资料36720份,
随着社会的快速发展和医疗环境的不断变化,各级医院住院病人疾病构成情况也在不断变化。本文对辽宁省某所三级甲等综合性医院2009年住院病人进行分析,以便为医院管理提供决策
<正>青少年的情绪、情感及其由此引发的问题行为一直都是社会性发展领域的重要研究课题。大量研究表明青少年的孤独感受到个体自身特征和社交因素的共同影响,但从个体和人际
针对目前应用的自动抄表系统可靠性和实时性差的弱点,提出了一种基于新兴的通用分组无线业务(GPRS)技术的自动抄表方案。该方案利用GPRS的Internet接入功能,通过RS485总线实现对多采集点数据的实时采集和传输。详细介绍了系统的构成和工作原理。由于具备了传输速率高、数据吞吐量大、通信实时、可靠性高等优点,本系统在仪器仪表的远程监控及数据的遥控遥测方面具有很高的参考和使用价值。
针对传统幅值最优及其抗干扰技术存在的问题,基于新的幅值最优模型,提出了PI求解方案。与传统的幅值最优及抗干扰PI整定公式相比,新的PI整定公式,减少了所需特征参数的个数,新的抗
卡尔·古斯塔夫·荣格(Carl Gustav Jung,1875-1961),是著名的瑞士精神分析学派大师。本文以他的原型理论在中国文艺理论界的接受为研究对象,将其在中国的研究以时间为线索划
SIP协议是多媒体通信网的控制协议,在分组交换网中,它提供基本的呼叫控制,负责建立、修改和终止多媒体(话音、数据、视频等)会话等应用。概述了SIP终端软件的设计思想,并详细介绍了