基于Spark的数据处理分析系统的设计与实现

被引量 : 75次 | 上传用户:ywdsar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。寻求有效的大数据处理技术、方法和手段已经成为现实世界的迫切需求。Hadoop和Spark是目前最流行的分布式计算框架,随着相关技术的逐渐成熟,现在很多公司都在研究学习,以满足自身业务的需求和提高产品的品质。在此背景下,某公司提出基于Spark来开发一个用于数据处理分析的系统,即ATL-DPAS (Data Processing and Analysis System Of Acn Technology Lab)。该系统不仅能够兼容Hadoop集群,而且能够利用现有的计算资源灵活高效的处理海量数据、进行交互式实时查询、进行可视化智能分析。根据不同的功能需求,系统划分为数据处理模块、数据查询模块、数据建模模块。本人主要负责数据处理模块的设计与开发,包括设计数据处理模块的流程、设计与实现数据清洗合并算法、实现各种数据处理方式的接口等。本论文中,首先对ATL数据处理分析系统的研究现状进行了综述,简单介绍了相关理论与技术;其次从功能性需求和非功能性需求两方面对系统需求进行了分析,从中梳理出系统目标,确定了系统总体设计架构,也对系统数据库进行了详细设计;再次,针对数据处理模块中HDFS列表、数据添加、数据清洗、数据合并、数据类型管理五个子模块进行了流程设计、代码实现与界面展示;最后介绍了系统部署的过程和系统测试的方法,对数据处理模块进行了详细的功能测试和性能测试,并对测试结果进行分析评估,从而验证了Spark数据处理方面的出色性能,也证明了本文工作的有效性和实用性。目前,该系统正处在试运行阶段,每天有百G数量级的数据进行处理分析。运行结果表明,系统完全能够正常运行且性能优良,达到了预期目标。
其他文献
当前,我国正处于城镇化进程的加速阶段,全国的城镇化率已经达到了54.8%(2014年),在较为发达的东部地区,部分大城市城镇化率已经达到了80%甚至90%以上。大量的城镇人口引致了
土耳其与中亚国家的关系已经持续了几个世纪,然而自双方关系确立以来,土耳其对中亚国家从未如当前这样重视。土耳其改变对中亚地区的认识主要源于以下几点因素:土耳其在北约中的
改革开放以来,民营经济一直是泉州发展的最大特色、最大优势。习近平总书记在总结“晋江经验”时强调指出,要始终坚持以发展社会生产力为改革和发展的根本方向。泉州市人大常
混合所有制改革是中央全面深化改革的重点领域,也是理论界所关注的焦点。在混合所有制改革背景下,以2012—2017年在深圳证券交易所上市的国有企业为研究样本,探究了外资股东
血管性痴呆(Vascular dementia,VD),是临床上常见的老年痴呆的一种类型,严重影响人类的生存质量,其发病机制主要包裹胆碱能系统、氧自由基、炎性机制、一氧化氮及其他等学说。目前
随着我国电子商务的不断发展以及快递行业发展环境的不断优化,人们对多品种、小批量、多批次、高附加值、小件货物运输需求日益增加的同时,也对快递的时效性、安全性、便捷性
汉代是中国古代建筑发展史上重要的转折阶段,这一时期木结构建筑技术的发展和创新促使汉代建筑的主体构架和承重方式发生了重大转变,奠定了中国古代木构建筑的结构基础。但由于
针对内河桥区航道船舶通航安全问题,以浏阳河景观桥(鹊桥)工程所在的桥区河道为例开展研究工作。研究首先基于浅水方程建立了浏阳河局部河段平面二维水流数学模型,在验证和水
教育信息化是国家信息化建设的重要基础,伴随着信息化时代的到来,传统的学生信息管理方式已经不能满足高校学生信息管理的需要。贵州城市职业学院作为贵州省第一批民办高校,
本文的研究主题是胡塞尔的意向性理论,主要文本依据是《逻辑研究》、《观念Ⅰ》、《笛卡尔沉思》、《内时间意识现象学》、《经验与判断》、《被动综合分析》和其他文本中关于