基于Hadoop的电子商务营销研究

来源 :经营管理者·中旬刊 | 被引量 : 0次 | 上传用户：wulanshaobu911

【摘要】

：

【作者】

：

张翼　王新春　冀震雷　张程亮

【出处】

：

经营管理者·中旬刊

【发表日期】

：

2017年4期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：随着信息技术和电商行业的发展，用户在电商网站上留下的数据越来越多。不少的电商企业每日需处理的用户数据量已经达到TB级，甚至达到了PB级。大数据时代已经到来，电商行业对数据挖掘的需求也因此而生。计算机科学自始至今就与数学紧密结合，有效利用数学方法可以较大地提高机器计算的效率，处理大规模的计算问题。本文将阐述基于Hadoop使用AdaBoost分类器处理电商大数据的方法和过程。
　　关键词：电子商务 HBase Hive Hadoop
　　一、引言
　　目前，电子商务已成为国民经济重要的组成部分，保守计算，我国电子商务占GDP的比重高达15%，它对于经济转型具有重要意义。在已有大量用户数据的基础上，随着计算机科学的发展，分布式高性能计算技术诞生，使用计算机科学方法对这些信息进行有效的数据挖掘，并对电商用户进行针对性营销显得十分必要。在对用户进行针对性营销前，需要使用分类器对从用户处采集到的数据进行筛选、分析，从而有效地判断出该用户是否为某产品的潜在客户，并进一步地对用户可能购买的商品进行优先级划分。这能为商家有效地向顾客推送商品提供依据，也为顾客提供可能将要购买的产品或服务进行精准化引导。AdaBoost算法是Adaptive Boost的简称，Boosting通过将一系列弱学习器组合起来，通过集成这些弱学习器的学习能力，得到一个强学习器。具体到AdaBoost算法，AdaBoost在之前学习器的基础上改变样本的权重，增加之前被分类错误的样本的比重，降低分类正确样本的比重，然后再重点关注那些被分类错误的样本；最后按照加权投票的方式将弱分类器构造为一个强分类器，对于分类正确率高的学习器权重设置较高，而分类正确率低的学习器权重设置较低。
　　二、基于Hadoop的电子商务营销系统设计
　　本文所采用的数据分类方法为Adaboost算法，该算法对从浏览信息中提取训练样本，用迭代方法将弱分类器训练成强分类器从而划分推荐等级。从而精准地为需要推荐的商品进行优先度分级，达到精准化营销的目的。营销系统首先采集信息（从cookie、session和数据库统计到的有价值的信息，如浏览过相关商品的信息，搜索相关商品的记录，及其购买率等数据），然后通过使用训练得出的Adaboost分类器对从用户处采集到的数据进行筛选、分析（通过使用Hive来创建MapReduce任务），从而有效地判断出某用户是否为该产品的潜在客户。
　　MapReduce处理之后将对商品的评分转储至HBase分布式集群，当用户再次浏览的时候，Web Server向HBase集群请求调用推荐数据，HBase集群快速响应请求，返回Web Server需要向用户推荐的商品，Web Server此时将商品放置在页面的广告位。从而为商家有效地向顾客推送商品提供依据（有效的利用广告位），也为顾客提供对有意购买的产品或服务进行精准化引导。图1所示为存储系统结构与访问关系图，它展示了商品从上次被浏览到被推荐给用户的详细流程。
　　三、基于Hadoop的电子商务营销系统的建立
　　1. Hadoop集群的搭建。集群的目的是使多个计算机进行并行计算从而获得很大的计算速度和减少单点故障数量。因此，集群节点的合理分布就成为了关键，既要考虑集群各个节点的负载均衡，也要考虑Hadoop生态体系的应用程序协调。设计一个合适的集群分布结构对集群的稳定运行具有重要意义。
　　表1展示了所设计的Hadoop生态体系的部署结构，完善的监控机制和替换机制保证了集群的高度可靠性，节点资源共享。在其中一台节点宕机后，其他节点的相同进程会迅速转为可用状态，保证了集群的稳定。
　　2. 使用Hive对采集到的数據进行处理。在对数据处理的过程中，采用了Hive工具。Hive位于Hadoop生态圈中，是基于Hadoop的一个数据仓库工具，可以将结构化的数据映射为一张数据库表。编程人员提供给Hive简单的SQL语句，Hive可以自动创建一个MapReduce任务并提交到Hadoop集群中执行。AdaBoost算法的实质是给多个弱分类器加权后求累加结果，可抽象为多元一次表达式。在编程中，首先使用Hive对用户浏览数据进行去重、合并处理（在合并时，对于同件商品的浏览次数、时间等信息要累加，最后浏览时间点要更新），之后统计同类商品出现的次数，将统计得到的次数放入每条商品数据中，最后，使用聚合函数计算上文中提到的多元一次表达式的结果。此时，去重后的每条商品浏览数据都拥有了分类评分，即有了推荐的依据。Hive工具将SQL脚本作为MapReduce程序执行，执行结果中可以得到，MapReduce程序在四台Linux机器的Hadoop集群上用16秒多的时间内处理了3万余条数据。这个数据处理速度对于4台单核机器集群十分可观。
　　3.使用HBase对处理后的数据转储。随着电商交易量的攀升，国内的几大电商每日数据库调用次数从亿到百亿，对海量数据的高效插入和快速读取的需求越来越强。而传统关系型数据库物理存储结构，不适用于大数据的IO操作，对于数据的规模和并发读写方面进行大规模扩展时，速度降低到难以忍受，分布式更为困难。由此，考虑数据的存储方式，使用了基于HDFS（ Hadoop Distributed File System）的HBase数据仓库。HBase数据仓库作为一种非关系型数据仓库，对于亿量级的数据量，可以在秒级内做出响应。HBase存储在HDFS上，每个文件块会被HDFS备份在3台机器上，在廉价平台上有良好的数据可靠性，而基于HBase的特殊存储结构保证了数据的高速响应。在表2中所展示的存储格式由RowKey（主键）和Column Families 1（列族1）够成。由于RowKey依据字典排序，因此这样设计可以使同一个用户ID下的商品信息物理存储连续，便于查找。又因为HBase特殊的IO方式，在查询数据时，HBase能够快速的定位RowKey所在的小文件位置，再遍历小文件，保证了在数据查询可以得到高速响应。
　　四、结语
　　针对电子商务用户数据的海量、分布式等特点，设计并实现了基于Hadoop的电子商务营销系统。搭建具有4个单核Linux集群的Hadoop集群，对集群进行MapReduce测试以及数据IO测试，结果可观，表明集群适合处理大规模的数据。应用Hive工具创建MapReduce程序实现了对用户数据评分并且高效率地运行在廉价机器上，选用它也可以使不精通Java语言的人员使用MapReduce来处理数据，不必开发专门的MapReduce应用；应用HBase分布式存储仓库，文件均匀分布于HDFS且有多个副本，数据可靠性高，集群运行状况良好，没有出现数据丢失现象；随着数据量的增大，集群的处理能力更具优势。证明该系统可以有效地应用于电子商务行业的精准化营销中。
　　参考文献：
　　[1]刘树仁，宋亚奇，朱永利，等.基于Hadoop的智能电网状态监测数据存储研究[J] .计算机科学，2013，40（1）：81-84.
　　[2]廖红文，周德龙.AdaBoost及其改进算法综述[J] .计算机系统应用，2012，21 （5）：242-244.
　　[3]Fay Chang，Garth Gibson.Automatic generation of I/O prefetching hints through speculative execution （poster session） [J] .CM SIGOPS Operating Systems Review，2000（2）.
　　[4]Wbite T.Hadoop权威指南（第二版）[M] .北京：清华大学出版社，2011：43-44.
　　[5]赵卫中，马慧芳，傅燕翔，等.基于云计算平台Hadoop的并行Kmeans聚类算法设计研究[J] .计算机科学，2011，38（10）：166-169.
　　[6]于戈，谷峪，鲍玉斌，等.云计算环境下的大规模图数据处理技术[J] .计算机学报，2011，10（34）：1753-1767.

其他文献

移动互联网模式的小米公司网络营销探析

摘要：近年来，移动互联网的浪潮正在席卷到社会的方方面面，新闻阅读、电商购物等热门应用出现，小米公司的崛起，是移动互联网发展的一个典型代表，本文将从移动互联网的角度分析小米公司如何利用移动互联网进行网络营销，成为最具有发展潜力的新型电商企业，为需要推进互联网模式的企业提供指导和建设性意见。　　关键词：移动互联网小米公司网络营销监管　　一、小米公司网络营销简述　　1.小米公司简介。小米公司成立

期刊

网络文化背景下高校校园文化建设的研究

摘要：网络文化背景下的高校校园文化建设是高校教育者必须认真对待的课题。文章分析了网络文化对校园文化产生的积极影响和消极影响，给出了高校要以社会主义核心价值体系为引领把握舆论导向、开展丰富多彩的校园网络文化活动、加强网络监管、建设校园网络文化管理队伍、充分利用微信公众平台等建设校园文化的意见。　　关键词：高校网络文化校园文化建设措施　　网络文化具有大众、开放、自由、互动等特点，为大学生提供

期刊

浅析高校财务内部控制管理

摘要：近年来，随着我国高校教学制度的不断改革，高校办学自主权也逐渐增加，高校教学体制改革力度加大。在这样的情况下，高校经费来源途径得到了扩展。但与此同时，高校内部资金收支形式开始变得多样化和复杂化，高校财务风险逐渐增加，必须加强高校财务内部控制与管理。　　关键词：高校财务内部控制管理　　如今，高校财务内部控制管理工作开始面临更多、更大的挑战，进而产生了一系列薄弱环节与问题。要想有效地解决相关

期刊

网络经济时代市场营销策略的转变

摘要：网络经济时代的到来使人们的生产及生活方式发生巨大转变，在此背景下，市场经济出现了新的特点与规则，逐渐形成依托网络经济，以市场为指控的完整体制。基于网络经济时代的发展，企业生产及运营管理遇到了新的挑战和机遇，如何转变市场营销策略，已成为社会经济繁荣发展的重中之重。对此，对市场营销策略的转变进行探究，以此为在网络经济环境中生存和发展的企业管理提供参考依据。　　关键词：网络经济市场营销策略　

期刊

新媒体时代的精准营销研究

摘要：微博、微信等一批被称之为新媒体软件的到来为企业的营销提供了另一个发展空间，实现准确营销。但部分企业对于新媒体技术的应用还不够成熟，并未完全发挥其优势，导致自身的营销水平低于市场同等企业，在本文中笔者就将对新媒时代的精准营销展开研究。　　关键词：新媒体时代营销特点精准营销　　传统的企业营销在广告投放和产品宣传方面存在严重的不足，例如受众面狭窄、受众定位不精准等等，新媒体技术的出现将有效的

期刊

我国农产品营销渠道的优化探索

摘要：我国现行的农产品营销渠道为：生产者将农产品输送到采购市场或营销地批发市场或产地批发市场或小摊贩或大型超市，最后输送到消费者的手里。目前，我国的农产品营销常常会出现“年丰伤民”现象，主要是由于农产品市场不规范、农民对市场信息掌握不全，盲目跟风、流通链条比较长等原因构成的。因此，本文简单阐述了我国农产品营销渠道的发展现状以及对应的优化措施，期望能够起到一定的积极作用。　　关键词：农产品营销渠

期刊

新建地方本科高校教研室管理问题探讨

摘要：教研室是高校管理工作中的重要一环，高校对教研室的管理方式是否妥当，直接影响到高校教师整体素质的提高。尝试以领导生命周期理论为依据，将教研室按其发展阶段归为不同的成熟度，从而为解决高校教研室管理中存在的问题提出客观合理的建议。　　关键词：领导生命周期理论教研室管理方式新建地方本科院校　　新建地方本科，一般是专升本的院校，是中国的一种特殊的办学群体。学校升格为本科层次后，各项事业都要有新

期刊

体验式营销创新研究

摘要：市场的发展有其内在的规律，不同的经济阶段有其不同的营销理论和营销手段，而现时代市场竞争突破行业边界、地域边界，甚至激烈的市场竞争触发虚拟市场与实体市场的之间的争相发展。体验式营销顺应了当前的市场经济环境，因此企业为了获得更好的发展机遇，使自己的产品或服务更加吸引客户，为企业培养更多的忠诚客户，指导企业形成更加贴合市场的品牌建设，将体验式营销与企业的营销实践相结合。　　关键词：体验营销消费

期刊

浅谈PPP模式与农产品产业化结合的相关问题

摘要：本文对汉阴县富硒魔芋产业发展的优势与产业化过程中存在的问题进行多角度分析，对PPP模式的历史沿革、主要类型进行简要介绍，以PPP模式为融资手段促进汉阴县魔芋农产品的产业化，创新现有PPP模式在农业领域的应用。　　关键词：PPP模式农产品产业化汉阴县魔芋产业　　一、汉阴县富硒魔芋产业概况　　魔芋，主要生长于热带与亚热带地区，中国的陕西南部、四川、贵州等是其主要原产地。魔芋能提供大量名为葡

期刊

绿食佳农业公园项目建议书

摘要：本建议书根据项目建设地点的实际，提出了项目建设的可行性、市场分析、建设内容、投资估算、建设期、经济效益分析及投资风险。　　关键词：农业公园项目建议书　　绿食佳农业公园位于自贡市荣县。建设的指导思想是以农业产业为基础，乡村旅游为载体，一二三产业融合发展。　　一、项目建设地点概况　　荣县位于四川南部，属自贡市管辖。面积1609平方公里，总人口69万多。东邻自贡市，西接乐山市，南连宜賓市，北

期刊

基于Hadoop的电子商务营销研究

其他学术论文