基于Spark的数据实时分析处理系统的设计与实现

来源 :电子科技大学 | 被引量 : 8次 | 上传用户：qq1123388099

【摘要】

：

随着移动互联网和物联网技术的蓬勃发展,人们从网络上获取信息的方式越来越丰富,同时向网络里传播的信息也越来越多,每时每刻都有巨量的数据产生。在分布式技术日益成熟的今

【作者】

：

陈鹏

【出处】

：

电子科技大学

【发表日期】

：

2018年01期

【关键词】

：

海量数据通用型 Spark ETL 实时处理可扩展数据倾斜 Docker Kubernetes

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着移动互联网和物联网技术的蓬勃发展,人们从网络上获取信息的方式越来越丰富,同时向网络里传播的信息也越来越多,每时每刻都有巨量的数据产生。在分布式技术日益成熟的今天,海量数据的存储管理难题已经通过分布式文件系统得到较好的解决,对海量数据中信息的检索查找,Hadoop、HBase等技术也已能解决大部分的业务场景需求。但是人们对科学的追求永无止境,能不能比之前更进一步,追求更实时地对数据进行处理分析已经成为所有领域的共同愿望。大量有价值的知识和潜在的规律信息被蕴藏在数据中,这些数据的价值会随着时间的流逝而减少,怎么有效接收管理这些数据并快速分析,发掘计算出数据背后的信息,实现实时统计、预测和决策等功能,成为现在重大的发展机遇与研究热点,亟需一个高效快速、稳定、高吞吐量的实时分析处理系统去对来自各个数据源的数据进行高效、实时、准确的统计分析。现在大数据的类型越来越复杂多样,业界内通俗的解决方案是针对不同的业务场景和数据类型,专门开发设计不同的处理子系统,例如实时流分析使用Storm、离线数据分析使用Hadoop,机器学习要建立额外的模块等,然后通过消息队列、缓存等技术把这些子系统编排成一个大企业型系统。这样的做法虽然能在生产实践中应用,但是明显学习和研究成本巨大,缺乏统一的计算系统平台,使得开发者难以维护和扩展由这么多套技术体系融合而成的系统。针对上述需求和问题,本文设计了基于Spark的通用型数据实时分析处理系统,主要包括新型ETL和实时处理引擎模块,致力于实时性能比传统Hadoop Reduce技术更优的数据计算,能对异构数据源进行采集并实施快速计算,同时具备着通用性、稳定性,集实时流计算、快速批处理计算、机器学习等于一身,将各种数据计算类型大一统。而且设计上吸收了大数据生态圈内许多例如Kafka和Redis等优秀技术的思想,开发者只需要面对一套技术框架和简单的数据流向,就可以轻松实现实时数据处理业务,减轻了系统复杂性和维护负担,同时具备可扩展性,针对数据倾斜,提出了优化策略。在系统构建部署方面,基于Docker容器技术、Kubernetes容器应用编排技术,使得系统集群具备弹性伸缩、高资源利用率、资源监控、快速部署和移植等特性。

其他文献

论董仲舒与张载的天人之学

西汉董仲舒与北宋张载是各自时代的儒学代言人。在儒学史上,西汉董仲舒最早提出系统的天人之学,而北宋张载则第一次使用"天人合一"这四个字,将其作为一个思想命题明确地提了

期刊

董仲舒张载天人之学天论天道论天人合一

电磁铆接放电过程仿真技术研究

通过MATLAB/SIMULINK构建电磁铆接放电回路的电路模型和数学模型,仿真得到了完整的电磁铆接放电电流及应力波形成过程波形。仿真结果验证了理论分析的正确性,为电磁铆接设备

期刊

电磁铆接仿真分析应力波pine wilt disease secondary Masson pine forest parasitic insect re

黄芪多糖抑制氧化应激致大鼠软骨细胞损伤及凋亡的作用机制分析

目的探究黄芪多糖(alp)抑制氧化应激致大鼠软骨细胞损伤及凋亡的作用机制。方法选取SPF级雌性3周龄大鼠,分为活性氧自由基培养组(ROS组)、黄芪多糖组(ROS+alp组),另设空白对

期刊

大鼠黄芪多糖软骨细胞氧化应激细胞凋亡RatsOxidative stressChondrocyte injuryAstragalus polysacc

直流融冰试验在宁波电网的应用

直流融冰是输电线路应对冰灾的一种有效手段。以一条220 kV线路直流融冰试验为例，对融冰线路两侧状态的定义和调度操作要求作了明确规定，分析了通过对矩阵闸刀的切换来调整直流

期刊

直流融冰冰灾融冰模式整定优缺点DC ice meltingice disasterice melting modesettingadvantages

农村社区公共服务的体制缺陷与机制改善

加强农村公共服务是农村社区建设的重要内容，也是实现城乡平等和协调发展的基本要求。当首我国农村社区公共服务供给不足、服务水平较低的根本原因是公共服务的体制和机制不完

期刊

农村社区公共服务体制缺陷机制改善

试析手机APP设计中的扁平化设计风格

APP是application的简称,即应用程序,包括了各类电脑软件应用程序,移动端软件应用程序。现在大多数人所指的APP即手机应用程序。在网络科技飞速发展的今天,各类应用层出不穷,

期刊

APP扁平化发展趋势

石榴果色合成相关基因CHS和CHI的表达特性分析

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

石榴CHSCHI基因克隆表达分析

膝关节单髁置换术治疗膝关节骨性关节炎的近期疗效分析

期刊

膝关节单髁置换术膝关节骨性关节炎近期疗效

先验有色噪声补偿的卡尔曼滤波组合导航算法

根据飞行器实际情况,将舱内捷联惯导安装等效为弯扭耦合激励扰动下的Timoshenko梁和阻尼弹簧振子混合系统,分析其激励响应获取惯导随机误差中的有色噪声。将有色噪声作为先验

期刊

捷联惯导弯扭耦合振动有色噪声卡尔曼滤波

脉络丛乳头状瘤尸检及临床病理观察

脉络丛乳头状瘤(choroid plexus papilloma,CPP)起源于脑室脉络丛上皮细胞,生长缓慢.尽管其生物学行为良性,因长于脑室常伴脑积水,导致占位与颅内高压,甚至局限性神经系统损

期刊

脉络丛肿瘤乳头状瘤尸体解剖免疫组织化学

基于Spark的数据实时分析处理系统的设计与实现

与本文相关的学术论文