基于Hadoop的改进协同过滤并行化算法研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:rogerfederersxt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,人类已经逐渐进入了一个信息爆炸的时代,协同过滤这种推荐算法在信息系统和信息的过滤中快速变的很流行。但是,传统的协同过滤算法主要是经过对系统输入的用户-项目评分矩阵中数据的分析与计算,将用户感兴趣的内容推送给用户,却忽略了用户的兴趣会随着时间的变化产生变动,影响了推荐系统的精确度。另外,现有的协同过滤推荐也忽略了用户的特征背景信息,导致了冷启动问题。因此,在对用户推荐项目时,应考虑各种信息特征,以缓解数据稀疏性,提高推荐精度。
  随着推荐系统中数据越来越多,规模越来越庞大,传统的以单机计算为主的协同过滤算法会遇到严重的瓶颈,因此对协同过滤算法进行并行化分析是很有必要的。本文使用 Hadoop 云平台集群的能力,进行高速的并行计算和比较有优势的存储,利用 MapReduce计算框架来完成并行化设计,处理基于用户兴趣变化以及基于用户特征的协同过滤算法所面临的一系列大规模数据问题。
  本文的主要工作:
  (1)针对传统的基于用户协同过滤算法总是忽略用户兴趣的改变会导致推荐结果不够准确的问题。本文以艾宾浩斯遗忘曲线为研究基础,利用用户在系统内的访问时间,加入时间因素来形容用户兴趣的改变。研究这个因素将如何影响到本文重点讨论的两个问题,也就是在推荐过程中的用户相似度计算以及对用户还没有进行评分的项目预估一个评分的分值,进一步对提升该算法的推荐精准度。
  (2)传统的基于用户的协同过滤算法加入用户特征的影响因素,从用户属性特征以及对用户评分差异两方面入手,使得新用户注册就可以轻松地进行有效推荐,并且在计算用户之间相似性时将用户属性特征与用户评分差异加权考虑,提升用户之间的相似度的计算结果,使邻居用户更加精准,进一步进行预测评分,提高推荐算法的精确度。
  (3)在 Hadoop 平台上分别对基于用户兴趣变化和基于用户特征的协同过滤推荐算法进行分布式实现,也就是利用 MapReduce 计算框架进行协同过滤算法的并行化计算。它的原理就是将需要进行并行操作的步骤散落在每个节点,降低每个节点的计算时间去提升计算效率,从而达到可以处理超大数据的目的。最终,将基于 MapReduce并行处理后的算法安排在 Hadoop各个节点,分别利用不同的数据集进行实验分析,从实验结果中验证改进算法的并行化优化效果。
  实验证明,在Hadoop平台上的基于用户兴趣变化以及基于用户特征的协同过滤算法在很大范围内解决了传统算法的运算时间比较长、推荐效果比较差等一系列问题,具有一定的理论价值和实用意义。
其他文献
智能交通系统近些年来迅猛发展,具有重要的研究价值和广阔的发展前景。其通过人、车、路之间的和谐、密切配合提高整个交通运输效率,缓解交通堵塞,提高路网通过能力,减少交通事故,降低能源消耗,减轻环境污染。车载自组织网络是智能交通系统的重要组成部分,基于车载自组织网络的城市交通管理是当前的一个重大热点研究内容。随着人们生活水平的不断提高和城市的快速建设,机动车的刚性需求不断旺盛,车辆数的迅速增长使得城市道
随着中国互联网发展水平的不断提高,人们在网络上留下的评论数量与日俱增,同时由于电商平台的发展,给人们的生活方式带来巨大的变革。电商平台的商品评论文本对人们能否如愿购买到自己心仪的商品以及电商平台的良好发展都具有重要意义。因此,对网络上的商品评论文本进行情感倾向分析可以为商家和消费者提供有价值的参考意见。  商品评论文本的情感分类主要是依靠人工进行判别的方法,人为的将文本进行分类,容易出现标准不一、
学位
随着社会经济快速发展,人们生活水平不断提高,汽车数量急剧増加,带来了很多交通问题,尤其是交通安全问题受到了人们广泛关注。为了更好地应对交通安全问题,车载自组织网络作为智能交通系统的一个重要分支应运而生,车载自组网中的车辆可以通过无线通信的方式获取与分享交通信息,从而改善交通状況。本文在有交通信号灯影响的情况下,将车载自组织网络(Vehicular Ad-hoc Network, VANET)中信息
由于图像在获取、传输、处理与显示等过程中,难免会出现部分干扰因素的引入,导致图像出现模糊、噪声及数据丢失等情况而使图像的质量受损,不断有新的图像质量增强算法投入到实际应用中。图像质量增强算法的优劣需要图像质量评价准则给出结论,而目前的图像质量评价准则通常针对单幅图像进行评价,当使用多种图像质量增强算法对同一幅图像进行质量增强后,面向单幅图像的图像质量评价准则只能够说明不同的图像质量增强算法对这一幅
毫米波频段拥有丰富的频谱资源,能够为下一代移动通信提供充足的带宽。毫米波系统易于布置更多的天线的单元,结合多输入多输出(Multiple Input Multiple Output, MIMO)技术,可对抗毫米波强的损耗和衰减,成倍提升无线频谱效率。毫米波混合 MIMO 系统包括射频(Radio-frequency, RF)波束成形和基带MIMO处理器,进一步解决了传统数字系统中RF链路过多而导致
随着网络新业务的不断涌现和传统网络暴露出的问题日趋严峻,互联网的可持续发展被提上议程,网络创新技术亟待被发掘出来。软件定义网络(Software Defined Networking,SDN)作为一种新兴的网络架构范式被提出,以应对传统网络中设备封闭、协议臃肿、功能升级周期漫长等诸多难题。这种新模式的突出特点是将控制平面与转发设备去耦合,数据平面专注于高速包转发等功能,而逻辑集中的控制单元则依赖于
静止气象卫星属于一种专门的遥感卫星,可对全天候气象进行观测,其拍摄的卫星云图有着较大的研究意义。基于多光谱遥感云层图像的三维重建可以较真实地展示天气状态,在气候预测、辨别云的类型及飓风预警等方面有着广泛的应用。图像三维重建技术在计算机图形学、三维建筑模型和游戏等领域取得了显著的成果。但是对于多光谱遥感图像三维重建方面较难反应自然天气情况下云层的外貌。已有的基于云表面建模方法只适用于模拟规则简单的云
随着5G移动通信、移动互联网、人工智能等技术的发展,车联网不仅成为5G研究的重要场景之一,也是未来智能交通系统的重要组成部分。研究车载自组织网络动态路由技术,旨在提升高移动性车联网节点在动态行驶环境下安全消息的转发质量,促进实现低时延、高可靠通信,其对满足实时转发安全消息、实现交通安全预警等功能具有重要意义。  为满足车联网安全消息实时播报所需要的转发质量,解决车联网动态拓扑、车辆行驶行为变化、车
对于未来的 5G 通信网络而言,高速移动场景下的无线通信需要满足高移动性、低延迟性、高数据传输速率以及低能源成本等多个基本要求。高速移动场景的多普勒效应、车体损耗等等这些问题都大大阻碍了高速移动下的无线通信,使得这些基本要求的实现充满了挑战。从而,需要提出新的理论和技术来提供高质量的无线服务。由此,为了改善高铁场景下的通信问题,为了更快速,更稳定的通信,提升用户的通信体验,本文在高速移动中继的场景
学位
近年来,无线通信在军用和民用两个领域都获得了非常快速的发展,并且引起了高度的关注。基于高速,可靠的海量数据的传输需求,发展兼顾频谱效率和传输性能的无线通信技术成为移动通信物理层研究的首要任务。多输入多输出( Multiple-Input Multiple-Output , MIMO)技术就是一种新兴的无线通信技术,具有显著提高无线通信系统的频谱效率和能量效率的潜力。但是,MIMO发射机对天线间同步
学位