论文部分内容阅读
当前,我们正处在大数据的信息时代,信息的爆炸式增长使得传统的技术架构无法满足海量数据的处理需求,大数据平台的研究与发展在这种环境下正当时。Spark是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台,Spark基于RDD成功地构建起了大数据处理的一体化解决方案,将MapReduce、Streaming、SQL、Machine Learning等大数据计算模型统一到一个技术堆栈,开发者使用一致的API操作Spark中的所有功能,使得Spark加速成为大数据处理中心首选的和唯一的计算平台。随着相关技术的逐渐成熟,很多公司都开始研究和学习spark技术,以满足自身业务的需求和提高产品的品质。在此背景下,公司提出基于spark系统在电信4G移动通信网络优化领域开展大数据网络优化平台的应用开发实践,传统的数据解析和分析方法和手段已经满足不了移动通信大数据时代对数据处理和分析的时效要求。该平台能够兼容Hadoop集群,同时高效的分析和处理海量数据,较传统方式性能提升有10倍以上。本人主要负责两个核心模块:数据解析模块和数据查询分析模块的设计与开发,包括设计数据解析模块的流程、编码实现数据解析、调优数据解析的效率、设计数据查询和分析的表字段、设计业务功能的SparkSQL的查询语句、优化查询性能。本论文主要介绍了本人利用spark技术在移动通信运营商的LTE网络通过处理海量MR测量数据辅助进行大数据网优的平台2个主要核心功能模块的建设。首先介绍了平台建设的背景和平台建设相关的技术,然后从功能性和非功能性需求两个方面分析了平台的功能需求。再次,详细介绍了2个核心功能模块:数据解析和数据查询分析模块的流程设计和代码实现、性能调优以及结果输出。最后,介绍了系统部署的过程以及与传统的方法运行的性能指标对比情况,从而验证了Spark在大数据处理上的出色表现,也证明本论文工作的有效性和实用性。该平台目前已经投入到公司日常的大数据处理工作当中,每月例行处理某省移动公司17个地市高达2.3T(压缩后)的网络优化相关数据。运行结果表明,平台的数据解析和查询分析模块能够正常运行而且性能表现卓越,可以满足某省一月完成一次全省规模数据的解析和指标输出要求,达到了预期目标。