论文部分内容阅读
随着计算机技术、网络技术和Internet技术的发展,以及各行业业务操作流程的自动化,行业应用所产生的数据呈爆炸性增长,数据动辄以TB计算。这些数据及产生的信息如实的记录着企业运作的状况。面对这些海量的数据,传统的数据分析工具存在很多缺陷,无法有效地进行处理分析。数据格式的多样性,数据的复杂性导致数据融合困难,单机存储存储量有限,且查询效率低,同时基于单机处理的数据分析有很大的局限性,它只能处理小规模的、规范化的数据,运行速度慢,很难进行深层次的数据挖掘。因此人们不断探索新的工具来分析企业的运营规律,为决策人员提供有价值的信息。随着以互联网为代表的信息技术深度发展,传统机器的软硬件不足以支持如此庞大的数据量的存储、管理及分析能力,因而专门应对大数据的分布式处理技术应运而生。如今业界大数据处理的主流平台非Hadoop莫属。Hadoop自推出以来因其在大数据领域的广泛实用性,很快在工商业界得到普及应用,同时得到了学术界的广泛研究。在短短的几年中,Hadoop很快成为到目前为止最为成功、最广泛使用的大数据处理主流技术和系统平台,并且成为一种大数据处理事实上的标准,得到了各行业大量的进一步探索与研究应用,尤其是在互联网行业得到了广泛的应用。由于传统的数据分析使用在单机系统上的局限性,当处理大量数据时,会显著的影响系统性能。因此为解决这一问题,本文在深入分析Hadoop大数据平台的相关技术下,提出了基于Hadoop的电商数据分析的系统方案,帮助企业利用有效的数据分析方法更好地作出商务决策。此方案利用Flume采集用户在电商网站上产生的海量用户行为数据,并存储到HDFS分布式文件系统上,以MapReduce计算框架为数据处理方式,利用Hive从不同维度对数据进行统计分析,最后本文提出了一种改进的K-means聚类和协同过滤混合推荐算法对用户进行商品推荐。本文根据需求分析对系统架构和业务流程进行了详细设计,将系统分为四个模块:数据收集模块、数据分析模块、数据展示模块及数据应用模块。并对这四个模块进行了详细的设计和实现。最后基于此系统完成了某电商公司日志文件分析和商品评论分析,同时在此基础上进行了用户推荐的测试。通过获得的数据分析结果,可以帮助公司对网站的应用有一个比较好的了解,并且更加详细地了解用户的行为习惯,从而找出网站、推广渠道等营销环境存在的问题,有助于营销的精准化,提升公司的效益。本文介绍商品评论的分析挖掘目标和流程,对商品评论数据进行可视化分析,并提出了基于分词法和评分的方法用于评论数据情感分析。且提出了一种改进的K-means聚类和协同过滤混合推荐算法,将Hadoop大数据技术和此算法相结合,将其运用到实践中,解决了电商企业的用户数据分析和用户推荐等业务需求问题。