论文部分内容阅读
互联网和移动支付的应用和普及,加速了电商行业的发展,行业汇聚信息量不断增大,迈入了大数据时代。人们购物越来越依赖网络,各种购物需求基本都能在网上得到满足,对于电商企业来说,借助网络平台可以更容易地获取大量关于用户行为的汇总数据,其中蕴含着有助于形成有效决策的价值信息。因此如何处理海量日志数据,如何对这些数据进行存储,如何从数据中挖掘有价值信息成为众多学者和商家企业研究的重点。Hadoop平台提供了从数据采集到数据处理,再到数据存储的成熟完整架构体系,是实现大数据存储处理的有效方案。推荐系统作为电商企业内容活动分发的核心技术,可以通过定位用户偏好制定推荐服务,是平台应用的重要领域。论文基于Hadoop搭建电商大数据平台,解决批量数据存储和处理问题。为平台推荐引擎设计组合算法,实现平台更加快速精准的推荐功能。论文主要研究内容如下:(1)研究Hadoop大数据平台整体框架,着重研究其分布式文件系统HDFS、并行计算框架Map Reduce、分布式数据库HBase和顶层算法工具Mahout的调度执行原理,通过分析各个组件的特性和功能,为之后的平台搭建和分布式任务编写提供技术支撑。(2)研究推荐系统中常用算法:基于邻域协同过滤和Slope One算法,结合电影实例数据对算法进行分析。提出推荐任务中面临的物品贡献度不一、数据稀疏性和评分主观性等问题,设计增加物品贡献度权重和排除用户评分主观因素对相似度计算进行修正,利用奇异值分解算法对数据进行降维填充等优化方案,对优化后算法进行有效性验证。(3)针对单一算法不适合多场景应用且处理效率不高等问题,对算法组合方式、组合特点和其应用场景进行研究。通过对KMeans、Bayesian等算法从定义和实现流程等方面进行研究,结合不同算法优势,设计更加高效的推荐算法。(4)对电商大数据平台整体架构、具体模块和算法进行设计。基于Hadoop组件功能,设计能够实现海量数据存储计算的电商平台的整体流程架构,并对平台中模块功能和推荐引擎中算法进行设计,完善平台功能。(5)分析平台设计模块和功能的需求,以Hadoop大数据框架为基础,利用HDFS和HBase完成平台存储功能,并在Map Reduce和Mahout之上建立推荐引擎,完成平台模块的构建,建立满足大规模数据存储和计算的电商大数据平台。(6)基于平台完成在电影推荐方面应用,并设计对照实验进行评价。对单机和平台分布式下推荐任务设计加速比指标对比任务推荐效率,对传统协同过滤算法和论文算法推荐结果针对准确率、召回率和覆盖率指标进行对比。结果表明平台推荐任务表现优于单机传统协同过滤算法推荐,验证了平台执行任务的高效性和论文算法的精度。