协同过滤推荐算法的改进及其在Hadoop平台上的并行化

来源 :华侨大学 | 被引量 : 0次 | 上传用户:sfyaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
协同过滤推荐算法是一种当下应用广泛的推荐技术,是智能电子商务的重要组成部分。虽然传统的协同过滤算法已经实现了智能推荐,但是其推荐精度任然不高,推荐结果的个性化程度偏低,算法的运行效率低。为了解决这些问题,本文提出了基于相关加权和项目最优加权融合的项目协同过滤推荐算法、基于用户类目偏好的协同过滤推荐算法、基于朴素贝叶斯回归模型的协同过滤推荐算法和部署于Hadoop平台的并行化的朴素贝叶斯回归模型,具体研究如下:(1)传统协同过滤算法存在推荐结果不够个性化的问题,而现有的优化方法在提升推荐结果的个性化程度时没有考虑对算法推荐精度的影响。为了解决这些问题,本文提出了基于相关加权和项目最优加权融合的项目协同过滤推荐算法。该算法首先运用相关加权设置一个最佳阈值,确保在用户拥有的共同打分项目数较少的情况下算法的稳定性。其次,在预测评分的步骤中引入项目最优权值,以平均绝对误差最小为优化目标,利用PSO(Particle swarm optimization,PSO)粒子群优化算法来求解项目的最优权值,并对项目进行优化加权来降低热门项目的影响,发掘冷门项目。最后,将相关加权和项目最优加权进行融合。由MovieLens公开数据集上的验证结果可知,该算法可以在有效改进传统方法存在的精度低的问题的同时对覆盖率、召回率和平均流行度进行提升。(2)传统协同过滤算法缺乏对用户类目偏好的考量,导致算法精度较低。而当前利用用户偏好改进的项目协同过滤算法在提升算法精度时会降低算法效率。为了解决这些问题,本文提出了一种运用用户固有的类目偏好来改良协同过滤算法的精度和效率的算法。该算法根据各项目属性包含的用户不偏好项目比率将项目分为用户偏好类目和不偏好类目。只有与待预测评分项目具有相同的类目偏好的项目时,才需要计算相似度;否则,不计算相似度,不纳为最近邻的备选项。由MovieLens公开数据集上的验证结果可知,该算法可以同时提高算法的效率、精度和覆盖率。(3)基于内存的协同过滤算法往往运算效率和预测成功率较低,为了提升效率和精度,本文将朴素贝叶斯模型用于协同过滤推荐算法,然而通用的贝叶斯模型存在难以应用于连续数据集的缺点。为此,本文提出了一种基于朴素贝叶斯回归模型的协同过滤推荐算法,该算法将分类问题转换为回归问题,使得连续数据得以处理。首先,将用户和项目定义为独立的属性,将离散后的评分值作为分类类别。其次,采用朴素贝叶斯模型预测用户和项目在各评分类别的概率值。最后,利用分类结果进行回归预测,将用户对项目的评分期望值作为预测评分值。在评分离散的Movielens公开数据集和评分连续的Jester公开数据集上实验的结果显示,本方法相对传统方法在预测成功率和效率上有较大的提升。(4)为了进一步提升算法的效率,应对“海量数据”的应用场景,本文将基于朴素贝叶斯回归模型的协同过滤推荐算法在Hadoop分布式平台上进行了并行化。首先,分析了基于朴素贝叶斯回归模型推荐算法的可并行性并构建了并行的理论模型。其次,将基于朴素贝叶斯回归模型的推荐算法在Hadoop分布式文件系统和MapReduce框架上进行实现。由Netflix数据集上的实验结果可知,该方法具有较高的可扩展性和较少的时空开销,在不损失算法精度的同时提升了算法效率。
其他文献
中国的房地产业随着市场经济体制的不断深入而崛起,并且逐渐发展成为国民经济的支柱产业。随着房地产市场的持续升温,我国近年来的商品住宅价格迅速上涨。基于此,中央自2016年末开始,反复强调“房住不炒”的原则,明确了当前中国楼市的发展方向。作为中国强大的经济区之一,长三角地区较早地开始了房地产的商业化,并且发展较全国其他地区更加成熟。同时,也是外界质疑房地产泡沫的重点关注地区之一。因此,探究长三角地区商
近年来,随着电器电子产品的日益普及,生活中产生了大量的电子废弃物。这些电子废弃物如不妥善处置,将会造成严重的环境污染。而当前我国电子废弃物的处置现状并不乐观,回收链
关于违约方合同解除权问题司法界和理论界存在一定争议,《合同法》第九十四条所规定的合同法定解除权主体未有明确指向,但司法实践中认可违约方合同解除权,该做法挑战了既有的观念和规则。实际上由于现行法律规定尚未明确禁止违约方解除合同,使得违约方合同解除权的司法适用在自由裁量权上富有一定弹性,从而发生法院裁判结果的不一致性。本论文旨在以违约方合同解除权问题的司法适用作为研究的切入点,采取实证研究的方式最终得
新型计算模式例如云计算、物联网等技术的发展令数据表现出海量、动态的特点,而目前传统的“中心化”域间访问控制呈现出策略执行不透明、动态数据管理不灵活、资源拥有方自主性差等不足,已经不能适用于开放环境中的分布式域间安全共享。针对以上问题提出了一种以ABAC访问控制为基础,以区块链为交互方式的域间访问控制模型。主要研究工作和创新点如下:(1)针对域间访问控制“中心化”问题,提出了一种基于区块链技术的分布
随着社会的进步和科学的发展,项目进度管理在各企业和组织中得到广泛的应用。本文在研究了大量项目进度管理理论及相关文献的基础上,把汽车新产品生产导入项目作为研究对象,进行项目进度计划的编制及进度控制的研究。本文结合B车型生产导入项目的实际情况,借鉴以往新产品生产导入项目的经验,在项目进度管理相关理论研究的基础上,运用工作结构分解法(WBS)对项目的活动进行分解,利用时间估计的方法对项目各活动进行估算,
本文主要研究了不同Si含量掺杂的Si Zn Sn O(SZTO)薄膜的制备与性能的研究、以及不同氩氧比条件下溅射所得SZTO薄膜的制备与其相关的性质的研究。氧化物半导体是一种具有半导体特质的氧化物。透明导电氧化物被广泛用作透明电极在光伏器件、平板和触屏显示器上。最受大家关注的是“透明非晶氧化物半导体(TAOS:Transparent Amorphous Oxide Semiconductors)”
党的十九大报告指出,创新是引领发展的第一动力,是建设现代化经济体系的战略支撑。研发投入作为国家创新的着力点,在提高地区全要素生产率和建设现代化经济体系过程中发挥着重要作用。经研究发现,我国东中西部三大地区研发投入的内部结构存在一定差异,对各地区的绿色全要素生产率发展带来了不同影响。本文从研发投入的内部结构入手,分别探究我国三大地区在研发投入强度、研发投入规模和研发投入的不同领域等三个方面存在的异质
项目型制造简称ETO(Engineer To Order),即面向订单设计,是生产大型复杂产品的采用项目管理方法的制造类型。供应商的表现对项目型制造企业的绩效影响很大,供应商的质量、价格、交货期和服务是最关心的指标,而其中质量又是重中之重。对项目型制造企业的特点、发展现状和问题进行了归纳,并总结了项目型制造企业供应商管理和供应商选择的相关理论。通过对项目型制造企业与非项目制造企业对比,分析了供应商
我国正处于城镇化加速阶段,导致城市风环境逐渐恶化,寒地城市因其独特的风环境特征,冬季雾霾频发的同时还伴随着热舒适度差的现象,与非寒地城市风环境问题截然不同。目前关于城市气候的研究已初具成效,但研究成果难以与现有城市规划或城市设计进行衔接,导致关于城市气候研究的成果无法落实。改善城市风环境首先从需要城市整体角度出发,通过城市整体层面结构优化和空间形态控制,进而达到改善城市气候环境的目的。2017年3
当前,STEM教育在中国进入蓬勃发展阶段,时代发展与社会经济的推动使得STEM教育面临着前所未有的机遇与挑战。凝心聚力,砥砺前行,我国正尝试探索出一条中国特色的STEM教育道路,STEM教育被纳入国家战略发展政策,各地相继推行STEM课程试点学校申报,STEM教育研究在理论与实践方面取得一定进展。但与此同时,当前教育体系下的课程模式制约着STEM教育的推行,STEM课程开展的有效性与课程设计的规范