论文部分内容阅读
随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。Hadoop和Spark是目前最流行的分布式计算框架,随着相关技术的逐渐成熟,现在很多公司都在研究学习,以满足自身业务的需求和提高产品的品质。在此背景下,某公司提出基于Spark来开发一个用于数据处理分析的系统,即ATL-DPAS (Data Processing and Analysis System Of Acn Technology Lab)。该系统不仅能够兼容Hadoop集群,而且能够利用现有的计算资源灵活高效的处理海量数据、进行交互式实时查询、进行可视化智能分析。根据不同的功能需求,系统划分为数据处理模块、数据查询模块、数据建模模块。本人主要负责数据处理模块的设计与开发,包括设计数据处理模块的流程、设计与实现数据清洗合并算法、实现各种数据处理方式的接口等。本论文中,首先对ATL数据处理分析系统的研究现状进行了综述,简单介绍了相关理论与技术;其次从功能性需求和非功能性需求两方面对系统需求进行了分析,从中梳理出系统目标,确定了系统总体设计架构,也对系统数据库进行了详细设计;再次,针对数据处理模块中HDFS列表、数据添加、数据清洗、数据合并、数据类型管理五个子模块进行了流程设计、代码实现与界面展示;最后介绍了系统部署的过程和系统测试的方法,对数据处理模块进行了详细的功能测试和性能测试,并对测试结果进行分析评估,从而验证了Spark数据处理方面的出色性能,也证明了本文工作的有效性和实用性。目前,该系统正处在试运行阶段,每天有百G数量级的数据进行处理分析。运行结果表明,系统完全能够正常运行且性能优良,达到了预期目标。