基于Spark的个性化推荐系统设计与实现

来源 :江苏大学 | 被引量 : 0次 | 上传用户:cbbbb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展,网络上的资源逐渐由匮乏状态转变为现在的爆发式增长状态。在信息爆炸的时代,利用推荐系统处理过载信息,可以使用户更方便的找到自己所需的内容,电影推荐系统就是要在大量用户观影行为和电影数据上进行分析与计算,得到推荐结果并传达给用户。  为了能够更快的处理大量信息,Hadoop应运而生,解决了大数据的可靠存储及处理问题。但是,随着大数据处理技术的普及,人们发现MapRecue也存在一些局限性,使用起来也较为困难。其问题有抽象层次较低,使用难以上手,只提供两种操作Map及Reduce表达力欠缺,中间结果也放在HDFS文件系统中,延时较高,对于迭代计算性能比较差。因此,技术发展的趋势将会是Hadoop MapReduce被新一代大数据处理平台所替代,而Spark平台目前得到广泛的认可。  本文的主要研究的内容是利用分布式Spark平台计算优势,帮助用户从庞大的影视信息中找出他们感兴趣的电影,并向用户推荐,避免让用户陷入信息过多的困扰。本文研究的重点主要有以下几个方面:  1、设计一套基于分布式Spark平台的推荐系统及其相关协作系统。这些协作系统保证了推荐系统的正常运行。其中存储系统作为数据的存储支撑,保证系统数据的可靠性和存取效率,展示页面是联系推荐系统与用户的重要桥梁,利用Dubbox框架将系统改进成服务化架构,解耦整个系统,使系统能够横向扩展。  2、本文着重介绍了推荐系统的核心——推荐引擎,深入研究其算法,包括协同过滤推荐算法和基于题材相关性推荐算法,改进原有的基于题材相关性推荐算法一些不足之处,使算法在满足长尾效应和并行优化方面得到提升,推荐结果更符合用户意愿。本文分析了当算法提交到Spark集群后,集群任务的划分及执行情况。  3、列出整个系统运行和开发所需要的环境、软件及软件版本,详细阐述了系统一些关键技术的实现,包括缓存机制和服务化架构。最后展现系统原型。
其他文献
视频质量评价作为数字多媒体技术中一项重要的技术之一,已经成为了视频研究的一个焦点,它在视频压缩、传输以及通讯领域中都占据举足轻重的地位。一个好的客观质量评价算法因
随着三维建模软件的广泛使用和三维扫描技术的发展使得三维模型的获取变得越来越简单,产生了大量的三维模型,并且三维模型开始被广泛应用于各个领域。三维模型已经成为继图像
说话人识别是一种较为有效的生物认证技术,它通过对语音数据的分析判断出何人在什么时间发出了声音。这种技术具有十分广阔的应用前景,已有的应用系统多为简单的说话人确认系
电力变压器是电力系统的重要电气设备,其运行状态直接影响着电力系统的安全性。因此,及早发现变压器潜伏性故障,是电力部门关注的一个重要问题。借助专家系统和模糊理论等技术可以有效地实现变压器故障诊断的智能化,促进变压器故障诊断技术研究成果的快速、有效转化。以油中溶解气体分析结果为特征量,利用三比值法对变压器进行故障诊断是一种十分广泛且有效的方法。本文在三比值法的基础上,利用人工智能相关技术构建了一个变压
无线传感器网络是一种无需人工操纵的集数据采集、数据处理和数据传送于一体的前沿技术,由部署在监测区域内的大量、微型、廉价的传感器节点组成、通过无线通信与自组方式形
随着网络技术的发展和网络规模的扩大,IPv4过渡到IPv6的进程逐渐加速。新协议的部署给网络管理带来了新的问题,而网络拓扑发现作为网络管理和监测的重要基础,同样面临着新的挑战
高压变频调速技术涉及大功率交流电动机的各种负载节能和调速,其应用已逐渐成为电力电子领域的一项重要技术。H桥级联型多电平逆变器是其中一种重要的拓扑结构,具有模块化工程设计、利用低压元器件实现逆变器高压输出等特点,方便于逆变器故障冗余设计。由于H桥级联型多电平逆变器需要实时控制多个功率开关器件,怎样使控制更为精确、简便已逐渐成为多电平逆变器研究的热点和难点。因此对于级联型多电平逆变器拓扑结构的研究以及
计算机技术的飞速发展使得信息的传递愈加迅速、便捷,同时人们对信息存储介质的安全要求也越来越高。加密U盘作为新一代安全移动存储设备得到了广泛应用,然而目前市场上的加
在颅面重建过程中,大批颅骨和人脸三维模型大多用MC算法生成,而用这种算法生成的模型数据比较庞大并且大部分含有很难去除的杂质,化简到一定程度又会出现表示精度不够的问题
内核态Rootkit是恶意代码中隐藏性最好,最难以检测的一类恶意代码。而随着云计算服务的快速发展,内核态Rootkit更成为了云计算中的一个重要威胁。如何保证在云计算环境下的数