基于Hadoop平台对交易记录的数据分析系统的设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:moreee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人们的生活方式和消费习惯也发生重大变化,网上购物以其方便与廉价的特点受到越来越多人的青睐。越来越多的商家不仅有自己的实体店而且开设了电子商务网站。随着电子商务网站巨大的访问量和庞大的交易额,电子商务网站将产生海量的交易记录需要存储与分析,而传统关系数据库对大数据的处理能力正面临严峻的挑战。  为了解决所出现的挑战,云计算技术在如今数据急剧膨胀的时代应运而生。Hadoop是一个对大数据进行分布式处理的云计算框架具体实现,它可以使用户在不了解分布式系统底层细节的情况下,开发分布式程序对大数据进行处理。Hadoop现在已经成为企业界和学术界研究的热点。  本文主要研究内容是基于Hadoop平台的海量交易记录分析系统中的数据存储与算法优化。首先,对Hadoop及其相关技术的研究,主要包括Hadoop系统中的HDFS和MapReduce的研究,以及Mahout中算法的并行化实现。其次,关系数据库、非关系型数据库与Hadoop存储的效率对比,为存储不同类型海量数据提出一种解决方案。然后,将基于Mahout优化聚类中心的K-means算法与Mahout中的K-means算法对比,缩短了聚类的时间,提高了聚类的效率。最后,对基于Hadoop平台的海量交易记录分析系统进行了设计和实现。这个交易记录是用户使用手机刷卡所产生的消费信息。根据用户需求实现其功能,例如:分析优质客户、用户销售量统计与分析、地域性分析与推荐等。本文将新的存储方案与改进的算法应用于该系统中,并验证了系统的可行性和正确性。
其他文献
科学数据库及其应用系统(简称“科学数据库”)是中国科学院“十五”信息化建设的重大项目。科学数据库采用逻辑上集中、物理上分布的建库和运行服务体系。随着资源数量的日益
随着个人计算设备和互联网的迅速发展,通信软件得到了越来越广泛的应用,并且逐渐成为人们日常生活中不可缺少的一个重要部分。目前学术界也逐步加强在高质量的音频、视频流媒体
随着网络的迅速发展,信息已经成为一种重要的战略资源,信息技术已经渗透到经济,金融,交通,银行各行各业,人们的决策越来越依赖信息。信息战已经成为未来的战争的重要形式。 在信
数据挖掘是当今计算机应用技术和理论研究中最热门的领域之一。数据挖掘技术经过十多年的发展,已经逐渐建立起系统的挖掘理论和成熟的挖掘技术。形成了以关联规则挖掘、分类规
本文在简单的介绍了入侵检测技术的概念和困难后,引入了安全事件管理的概念。首先阐述了安全事件管理目前的一些研究现状和它所涉及的一些技术,并介绍了关联算法。然后使用攻击
学位
供应商关系管理,是企业供应链上的一个基本环节,它建立在对企业的供方以及与供应相关信息完整有效的管理与运用的基础上,对供应商的现状、历史,提供的产品或服务,沟通、信息交流、
网格技术将分布的资源做统合并有效的利用。它为用户提供了访问、使用和控制分布在不同域的异构资源的能力,同时为网格安全带来新的问题。科学数据网格是以中国科学院十五信息
互联网技术和应用的不断发展,使得互联网承载了越来越多的信息。互联网的去中心化发展以及社交工具、自媒体工具在人们生活中的广泛使用也使得越来越多的互联网用户参与到了信
随着科技的飞速发展,人们每天获得的信息量也与日俱增,这其中除了人们关注的主要信息外,还充斥着大量的冗余信息。而多文档摘要技术能够很好地帮助人们从大量信息中提取主要
随着互联网的不断发展,各种各样的,包含不同主题的信息可以通过网络获取,互联网是人类历史上最大规模的数据库。通常人们获取网络信息的途径有两种:网页浏览和关键字查询。但两种