基于Hadoop的电商数据分析系统的设计与实现

来源 :广西师范大学 | 被引量 : 1次 | 上传用户:xiaosheng2099
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、网络技术和Internet技术的发展,以及各行业业务操作流程的自动化,行业应用所产生的数据呈爆炸性增长,数据动辄以TB计算。这些数据及产生的信息如实的记录着企业运作的状况。面对这些海量的数据,传统的数据分析工具存在很多缺陷,无法有效地进行处理分析。数据格式的多样性,数据的复杂性导致数据融合困难,单机存储存储量有限,且查询效率低,同时基于单机处理的数据分析有很大的局限性,它只能处理小规模的、规范化的数据,运行速度慢,很难进行深层次的数据挖掘。因此人们不断探索新的工具来分析企业的运营规律,为决策人员提供有价值的信息。随着以互联网为代表的信息技术深度发展,传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。如今业界大数据处理的主流平台非Hadoop莫属。Hadoop自推出以来因其在大数据领域的广泛实用性,很快在工商业界得到普及应用,同时得到了学术界的广泛研究。在短短的几年中,Hadoop很快成为到目前为止最为成功、最广泛使用的大数据处理主流技术和系统平台,并且成为一种大数据处理事实上的标准,得到了各行业大量的进一步探索与研究应用,尤其是在互联网行业得到了广泛的应用。由于传统的数据分析使用在单机系统上的局限性,当处理大量数据时,会显著的影响系统性能。因此为解决这一问题,本文在深入分析Hadoop大数据平台的相关技术下,提出了基于Hadoop的电商数据分析的系统方案,帮助企业利用有效的数据分析方法更好地作出商务决策。此方案利用Flume采集用户在电商网站上产生的海量用户行为数据,并存储到HDFS分布式文件系统上,以MapReduce计算框架为数据处理方式,利用Hive从不同维度对数据进行统计分析,最后本文提出了一种改进的K-means聚类和协同过滤混合推荐算法对用户进行商品推荐。本文根据需求分析对系统架构和业务流程进行了详细设计,将系统分为四个模块:数据收集模块、数据分析模块、数据展示模块及数据应用模块。并对这四个模块进行了详细的设计和实现。最后基于此系统完成了某电商公司日志文件分析和商品评论分析,同时在此基础上进行了用户推荐的测试。通过获得的数据分析结果,可以帮助公司对网站的应用有一个比较好的了解,并且更加详细地了解用户的行为习惯,从而找出网站、推广渠道等营销环境存在的问题,有助于营销的精准化,提升公司的效益。本文介绍商品评论的分析挖掘目标和流程,对商品评论数据进行可视化分析,并提出了基于分词法和评分的方法用于评论数据情感分析。且提出了一种改进的K-means聚类和协同过滤混合推荐算法,将Hadoop大数据技术和此算法相结合,将其运用到实践中,解决了电商企业的用户数据分析和用户推荐等业务需求问题。
其他文献
对A市一所公立幼儿园的26名幼儿进行为期一周的行为观察,以考察教师不同对待态度下幼儿表现出来的行为。调查结果表明:教师对待幼儿的态度对幼儿的课堂表现积极性、社会行为
莱因霍尔德·尼布尔(Reinhold Niebuhr,1892-1971)是20世纪美国著名的基督教思想家、基督教政治家。他是基督教现实主义的代表人物。他的人性观扭转了当时在美国流行的乐观主
<正> 治疗药物和食物的中毒处方:鸡血藤五钱,茜草根五钱,香附三钱,广木香五钱,青木香(臭鸡屎藤)五钱,田七五钱。制法及用法:将上药晒干研末分成六包,每次服一包,服时另加正梅
本文通过对古希腊陶制瓶画的多方面考察,探讨了特定时期瓶画所反映出的神话、英雄、战争等内容,指出瓶画具有历史叙事的特征。另外,瓶画也具有图像叙事的特征,这些图像占据着
<正>溃疡性结肠炎(Ulcerative Colitis,UC)由于生活方式、饮食及环境等发生了变化,随之其发病率也持续升高,而其生存质量具有下降趋势。因此,对UC患者进行生存质量的评估具有
会议
<正>中国人民大学国际货币研究所(IMI)成立于2009年12月20日,是专注于货币金融理论、政策与战略研究的非营利性学术研究机构和新型专业智库。研究所秉承"大金融"学科框架和思
会议