论文部分内容阅读
随着大数据时代的到来,人们的生活方式和消费习惯也发生重大变化,网上购物以其方便与廉价的特点受到越来越多人的青睐。越来越多的商家不仅有自己的实体店而且开设了电子商务网站。随着电子商务网站巨大的访问量和庞大的交易额,电子商务网站将产生海量的交易记录需要存储与分析,而传统关系数据库对大数据的处理能力正面临严峻的挑战。 为了解决所出现的挑战,云计算技术在如今数据急剧膨胀的时代应运而生。Hadoop是一个对大数据进行分布式处理的云计算框架具体实现,它可以使用户在不了解分布式系统底层细节的情况下,开发分布式程序对大数据进行处理。Hadoop现在已经成为企业界和学术界研究的热点。 本文主要研究内容是基于Hadoop平台的海量交易记录分析系统中的数据存储与算法优化。首先,对Hadoop及其相关技术的研究,主要包括Hadoop系统中的HDFS和MapReduce的研究,以及Mahout中算法的并行化实现。其次,关系数据库、非关系型数据库与Hadoop存储的效率对比,为存储不同类型海量数据提出一种解决方案。然后,将基于Mahout优化聚类中心的K-means算法与Mahout中的K-means算法对比,缩短了聚类的时间,提高了聚类的效率。最后,对基于Hadoop平台的海量交易记录分析系统进行了设计和实现。这个交易记录是用户使用手机刷卡所产生的消费信息。根据用户需求实现其功能,例如:分析优质客户、用户销售量统计与分析、地域性分析与推荐等。本文将新的存储方案与改进的算法应用于该系统中,并验证了系统的可行性和正确性。