论文部分内容阅读
随着信息技术的发展,数据分析在企业决策和产品设计中起着越来越重要的作用。产品设计者可以根据用户行为数据的分析,设计增加更能提高用户体验的功能和对其他部分功能做改进;企业决策层可以根据数据分析的结果决定产品定位和企业的发展方向。但是随着企业的发展、产品的增加和用户数量的增加等因素,使得数据总量随之剧增。面对数据数据存储、数据处理能力和性能等方面的挑战,传统的数据分析系统已经不能胜任对海量数据的分析处理工作。本文主要针对传统数据分析系统所面临的上述的一系列的挑战,结合云计算技术和Amazon提供的云服务,以及HBase数据库等应用,研究并实现新的海量数据分析系统。在研究工作中,通过对Amazon提供的EC2,S3和EMR服务的研究学习,以及对数据分析系统的客户端,接收服务器和数据处理服务器三部分职能的具体分析,创建该系统的初步模型;结合实际需求,分别对各个模块进行实现,并且完成整个系统的集成;通过系统测试和性能测试,验证系统是否能解决传统数据分析系统所面临的问题。研究贯穿了数据分析系统的分析设计和实现的全过程。首先是对课题的问题域和需求的提出。我们通过对传统的数据分析系统的研究和系统存在的问题的分析,提出基于云计算的海量数据分析系统的开发需求,明确新系统设计实现的重点是接收服务器和数据处理部分。其次是对海量数据分析系统各个模块进行设计和实现。最后是对系统进行系统测试和性能测试,从而验证了该数据分析系统是稳定健壮并且满足需求的。目前,云计算技术应用和数据分析系统都在处于蓬勃的发展期,本文通过研究云计算技术和Amazon所提供云服务的应用,并将成功的其应用到实际的企业级的数据分析系统中。实现了基于云计算的数据分析系统,以此解决了传统数据分析系统中所存在的问题,提高了系统的分析处理能力,并且节省了成本,缩短了开发周期。采用云计算技术之后,使得数据处理系统在分析处理数据的时候更加灵活,可以根据实际需要增加或减少数据处理所需的硬件资源。同时能节省硬件设备维护和存储数据备份所需的开支。无论从系统的数据处理性能和项目成本上来讲,云计算技术的应用都将是最佳方案。本研究通过实际项目成功证实和体现了云计算技术的优势。在云计算技术的研究和应用中,本论文具有一定的参考价值。