基于脚本语言的网络流量分析与优化

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:libra163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这些年来,随着互联网规模的急速增长,对网络流量的监控与分析逐渐成为了一项重要的事情。由此产生海量数据的存储、计算和分析已经逐渐成为一个重大问题。对于网络流量的分析逐渐由单机转向了 Hadoop分布式系统。同时为了方便数据分析人员的使用,开发了基于传统MapReduce作业的Hive和Pig。但是随着快速与实时性数据分析的需求,陆续诞生了 Spark SQL和Impala等不同于传统MapReduce架构的脚本语言。但是对这些不同类型的大数据脚本语言的相关性能优化以及对比的研究还是较少的,无法充分发挥分布式系统分析网络流量的优势。因此本论文将对Hive和Pig,Spark SQL和Impala三种不同类型的脚本语言进行优化和横向上的对比。本文首先介绍了论文的研究背景和相关领域的研究现状。然后介绍了网络流量分析的现状,分布式系统网络流量分析的典型框架与使用分布式系统进行数据分析的原因。随后,从源码的角度介绍了MapReduce计算框架与Hive、Pig的架构。然后从几个常用的方面对Hive和Pig进行了优化,比如:合并小文件、中间结果输出压缩与Join优化策略,并对网络流量数据进行了分析与优化。接着,分析了Spark和Spark SQL的架构,Spark计算模型相对于MapReduce的优势,然后从内存管理的角度优化了 Spark SQL,比如:缓存的使用,StorageLevel与数据的序列化。然后从文件存储和文件格式的角度,比较了常见的几种文件格式(SequenceFile,RCFile与Parquet)与压缩方式(Gzip,Bzip,Snappy,Lzo)的优缺点以及适用的场景。从压缩方式的角度,分析了几种常见压缩格式的异同。最后,本文搭建了基于CDH5的网络流量分布式系统,选择了 7种常见的网络流量分析需求,构建了数学模型,从分析工具、文件格式、压缩方式三个维度,全面分析比较了这三种经典的大数据常用工具。
其他文献
海冰是全球气候变化最敏感的部分之一,海冰变化具有全球气候变化指示和放大器的作用;海冰模型作为地球系统模型中最重要的组成部分之一,近年来,被广泛应用于计算和推演南北极海冰的变化情况。如今南北极的气候以及环境问题日益复杂,对于海冰模型计算过程中的精确度要求也变得越来越高。由于海冰模型应用本身具有计算密集型的特点,所以海冰模型的模拟计算过程一般需要数小时至几天不等,对海冰模型计算时效性的要求也越来越高,
随着移动设备和人机交互技术的日益发展和结合,移动端手部检测技术的研究也越来越重要。面向移动端复杂背景的手部检测主要面临两方面的挑战。一方面移动设备有限的计算资源
在现实生活中我们会同时面临来自多个感官通道的信息,并且在特定情况下某一通道信息会得到优先加工,因此会出现某一个感官通道主导另一个感官通道的现象,在涉及空间的任务中
学位
当今社会信息技术的快速发展,促进了我国光纤及相关产业的发展,同时对光纤制造所需的主要原材料——石英玻璃材料的性能指标和生产效率提出了更高要求,但长期以来受工艺过程
摄像模块作为移动通信设备厚度最大的部件,体积正在不断减小,而模块内的光圈和感光元件的面积也受到这种趋势的影响,难以做大,进而导致了移动通信设备的感光能力较弱,在弱光
大数据时代已经到来,信息数据量越来越多,种类也越来越繁杂,人们希望从大数据中分析出某种隐含的规律,找到数据隐含的特征和共性,再通过智能分析进行分类,把繁杂的数据做统一
近年来,随着Android应用的推广和移动支付的普及,越来越多的基于Android的金融支付产品应运而生。但随着金融支付终端硬件的增多以及设备类型的多样化,对应用软件提供基于硬
传统吸力基础是一种底部开口,顶部封闭的大型钢制薄壁圆筒结构,可作为海上风电及海洋平台基础。裙式吸力基础以传统吸力为载体在顶部增加了“裙”结构,有效增加了传统吸力基础的水平承载力并减小了其侧移量。吸力基础达到设计承载力的前提是沉贯至海床预定安装位置。论文通过模型试验的方法,对比传统吸力基础,研究了黏性土不同固结时间和基础沉贯方式对裙式吸力基础沉贯和水平单调承载力的影响,分析了裙式吸力基础在沉贯和水平
光栅投影三维测量技术以光学理论为基础,融合计算机视觉、图像处理、数字信号处理等学科,从而实现物体表面形面的数据测量。传统投影正弦光栅的三维测量技术,会受到投影仪投