基于Spark Streaming的试验数据处理系统的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:tonghai0919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的迅猛发展,走在科技前沿的航空航天领域产生的数据量正在以指数级飞速增长,其处理速度方面面临着巨大挑战。课题研究初期,面对数百GB的二进制试验数据,采用MapReduce并行计算框架实现的多机多线程进行解析计算,其性能远远超越了传统的单机多线程方式的处理能力,很大程度上解决了长时间延迟短板。但是,采用MapReduce仍然存在着以下问题:耗费大量非必要时间提前将完整二进制数据上传至分布式文件系统HDFS;计算结果数据无法实时展示;面对规模列表数据的计算,采用的仍是单机多线程从HDFS上取数据再计算并缓存的方法,具有较大的性能局限性。为了解决上述问题,本文首先从架构方面进行改进。设计基于Kafka、Spark Streaming、Redis分布式架构,进行实时数据采集、实时解析计算以及实时缓存。数据采集由三部分组成,分别是消息队列、消息数据的生产者与消费者,其中生产者是分布在不同试验场区的数据采集点。采用Kafka消息队列实现各试验子系统间高速、低延迟的大规模数据采集,降低系统之间的组网复杂度;实时解析计算引擎Spark Streaming作为消息队列的消费者,将从不同试验场区采集到的二进制数据作为解析计算引擎的输入,将流式数据按照每2秒一个间隔为单位划分成一段一段的数据,并将每段数据转换成解析计算引擎能够使用的弹性分布式数据集(RDD,Resilient Distributed Dataset),然后将解析计算引擎中对流式数据的处理转换为Spark能够进行解析计算的数据集的操作,经过解析计算,将计算结果保存到非关系型内存数据库Redis中;使用Redis实现计算结果的快速缓存,避免数据写入到硬盘,为计算结果的实时展示提供保障。其次在提出整个分布式系统架构的基础上,对数据采集和解析计算的性能进行分析与调优。通过采用Topic多分区(Parititon)、缓存发送数据并压缩等方法从消息队列架构与数据发送两方面进行数据采集过程的调优。通过平衡Spark Streaming数据接收时间窗口与速度、采用Redis连接池等策略,从数据消费、解析计算、数据缓存等数据解析计算过程进行优化。最后在实验环境中对系统进行部署测试,验证本文架构能够避免数据上传的时间浪费和解决无法实时展示解析计算结果问题。测试结果表明基于流式计算架构的新系统性能远好于课题初期MapReduce架构,达到了预期目的。
其他文献
患者,女,54岁,以脑血栓后遗症9年余,于1999年12月5日因患侧肢体明显无力而入院。第1天入院用5%G·……
早在上世纪90年代,余有幸拜读由著名中医学家郭子光、熊曼琪、徐木林等教授主编,陈可翼院士、邓铁涛教授审定,近百位中医临床各科专家包括部分日、韩医学专家参与编写的大型
目的研究细节护理在消化内科护理中的临床使用效果。方法选取2019年1月~2020年1月94例消化内科患者作为研究对象,运用分组式结果分析,将患者按照不同护理方法分为观察组(n=47
<正>人类社会是一个相互依存、相互影响、共同发展的整体,团结互助是个人与群体生存发展的需要,是社会生产、文明进步的必然,也是个人的修养、品质和美德之一,是一种应当履行
数字时代,随着消费者对虚拟生存方式的逐渐适应,技术驱动着营销传播阵地的转移,数字营销传播应运而生且不断发展。然而,基于传统技术观和技术工具论将"技术"仅仅视为传播"工
【摘要】练习、考试是教师了解学生对所学知识掌握情况的主要途径,但是在平时的教学中并没有得到教师的充分重视。由于公开课中不会有专门的试卷讲评课,教研活动中也不会有专门的试卷讲评技巧探讨活动,教师讲评练习能力的成长,主要靠自身经验的积累。笔者基于自己平时讲评练习中总结出的问题,提出了小学英语教师讲评练习应该注意的一些要点,希望给广大同人提供一些教学参考。  【关键词】小学英语;练习讲评;实践思考  练
<正>科大讯飞是亚太地区最大的智能语音和人工智能上市公司,智能语音与人工智能技术水平已处于世界之巅。作为首批国家新一代人工智能开放创新平台,科大讯飞以"人工智能改变
我国"科教兴国"战略的提出足以体现国家对科技教育的重视,这对我国青少年科技教育提出了巨大的考验。然而从现实情况来看,目前很多学校在这方面的认识还不足,本文将着重分析
目的:研究葡萄籽提取物中的化学成分;比较并优选葡萄籽提取物的提取与纯化工艺;测定国内外品牌红酒中生物活性成分的含量;研究低聚体原花青素的生理活性。材料与方法:通过聚