基于Hadoop架构的商业推荐引擎协同过滤算法设计与实现

来源 :电子科技大学 | 被引量 : 4次 | 上传用户:talaima116
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
推荐系统已被广泛使用在互联网的各个方面,其中电子商务的高速发展离不开个性化地推荐系统。尤其近年来,推荐系统越来越明显且有力地推动电子商务的业务增长。基于协同过滤的推荐算法是当今电子商务推荐系统中最被广泛采用的关键技术之一。在本文中通过全面介绍和研究当今推荐系统采用的主要推荐算法,例如基于内容、协同过滤算法等,以及学习了大数据处理平台Hadoop,简要介绍Hadoop的工作原理和Map Reduce计算方式和HDFS分布式存储平台。针对基于内存的协同过滤算法的缺点,从相似度和加权平均方法切入,提出若干算法改进,改善推荐质量和提高性能。对于采用皮尔逊系数的协同过滤算法来说,就是当两个用户同时评分的项目数目比较少的时候,那么皮尔逊相关系数表现不佳,通过引入默认预测值能较好地解决这个问题;当某个项目被很多人同时评分,那么它容易和别的项目评分度较高,通过采取TF-IDF来解决;通过引入指数算法,来惩罚相似度低的项目的权重来提高推荐质量;Weighted Slope One算法在保持预测准确度的情况下提高系统性能。在协同过滤推荐算法中,因稀疏的用户项目评分矩阵而导致的矩阵规模膨胀是一个十分棘手的问题。稀疏的用户评价矩阵大大加重系统计算的时间。在本文中通过研究各种对矩阵降维的方法,例如奇异值矩阵分解技术,非负矩阵因式分解等概率统计模型,解决稀疏矩阵的计算问题。由于电子商务平台的迅速发展带来的几千万的用户数和数以亿计的商品量(例如亚马逊商城,天猫商城和京东商城等),对现有的推荐系统运行性能提出了严峻的挑战。依靠单机的推荐系统难以承受如此海量用户和数据的计算量,因此如今电子商务网站普遍采用分布式集群计算机来实现商品推荐引擎。本文尝试基于Hadoop实现一个具有伸缩性、高弹性、高容灾性、稳定的商品推荐引擎的设计和实现。
其他文献
随着存储系统规模的不断增大,存储系统的访问性能、能量消耗及数据可靠性等问题变得越来越显著突出。为了针对上述问题提出有效的解决方案,研究者需要搭建不同结构的磁盘阵列
随着社会经济的快速发展,各类企业层出不穷,伴随着企业的越来越多,商标作为企业的标志越来越受到重视,而商标的设计成为企业发展的重要环节。商标是商品的生产者经营者在其生
随着计算机以及网络技术的发展,Internet目前已经成为人们获得所需信息的重要来源之一,然而网络中存在的大量信息在给人们带来方便的同时也带来了许多的问题,越来越多的个性化信
企业的信息化建设,是指使用企业信息资源规划方法,对企业生产经营所需的数据,从采集、处理、传输到使用各阶段进行全面规划。但信息化建设项目一直被诟病周期长、风险大、成
当前Internet上流媒体应用已成为最广泛、最重要的应用之一,而点播流媒体的交互性使其更受用户的青睐。在传统的IP组播技术,CDN(Content Distribution Network)等技术不能满
信号处理是信息科学的一个重要分支,近几十年来它的基本理论和技术得到了迅速的发展和广泛的应用。其中对夹杂着强噪声的弱信号检测便是其中的一方面。由于它能测量传统观念
随着互联网技术的高速发展,越来越多的数字产品通过网络进行传播。这在给用户带来极大便利的同时,也带来了相应的信息安全隐患。如何采取相应的措施保护作者的版权,如何保证
随着计算机技术、人工智能、图像处理技术和视觉传感器技术的高速发展,智能机器人技术逐渐成为了先进制造与自动化领域的国内外研究热点,并且智能机器人也在教育、医疗、电力、
基于机器视觉的自动检测是一门新兴的检测技术,它综合应用了图象处理与分析、模式识别、人工智能、精密仪器制造等技术。由于基于机器视觉的检测具有快速、精确、非接触等一
人类基因组计划完成后,生命科学的研究进入了后基因时代。基因组的研究包括基因识别、信息结构分析以及功能预测等方面,识别真核基因剪切位点是基因识别中的重要的一环。剪切位