基于Spark的数据实时分析处理系统的设计与实现

来源 :电子科技大学 | 被引量 : 8次 | 上传用户:qq1123388099
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网和物联网技术的蓬勃发展,人们从网络上获取信息的方式越来越丰富,同时向网络里传播的信息也越来越多,每时每刻都有巨量的数据产生。在分布式技术日益成熟的今天,海量数据的存储管理难题已经通过分布式文件系统得到较好的解决,对海量数据中信息的检索查找,Hadoop、HBase等技术也已能解决大部分的业务场景需求。但是人们对科学的追求永无止境,能不能比之前更进一步,追求更实时地对数据进行处理分析已经成为所有领域的共同愿望。大量有价值的知识和潜在的规律信息被蕴藏在数据中,这些数据的价值会随着时间的流逝而减少,怎么有效接收管理这些数据并快速分析,发掘计算出数据背后的信息,实现实时统计、预测和决策等功能,成为现在重大的发展机遇与研究热点,亟需一个高效快速、稳定、高吞吐量的实时分析处理系统去对来自各个数据源的数据进行高效、实时、准确的统计分析。现在大数据的类型越来越复杂多样,业界内通俗的解决方案是针对不同的业务场景和数据类型,专门开发设计不同的处理子系统,例如实时流分析使用Storm、离线数据分析使用Hadoop,机器学习要建立额外的模块等,然后通过消息队列、缓存等技术把这些子系统编排成一个大企业型系统。这样的做法虽然能在生产实践中应用,但是明显学习和研究成本巨大,缺乏统一的计算系统平台,使得开发者难以维护和扩展由这么多套技术体系融合而成的系统。针对上述需求和问题,本文设计了基于Spark的通用型数据实时分析处理系统,主要包括新型ETL和实时处理引擎模块,致力于实时性能比传统Hadoop Reduce技术更优的数据计算,能对异构数据源进行采集并实施快速计算,同时具备着通用性、稳定性,集实时流计算、快速批处理计算、机器学习等于一身,将各种数据计算类型大一统。而且设计上吸收了大数据生态圈内许多例如Kafka和Redis等优秀技术的思想,开发者只需要面对一套技术框架和简单的数据流向,就可以轻松实现实时数据处理业务,减轻了系统复杂性和维护负担,同时具备可扩展性,针对数据倾斜,提出了优化策略。在系统构建部署方面,基于Docker容器技术、Kubernetes容器应用编排技术,使得系统集群具备弹性伸缩、高资源利用率、资源监控、快速部署和移植等特性。
其他文献
西汉董仲舒与北宋张载是各自时代的儒学代言人。在儒学史上,西汉董仲舒最早提出系统的天人之学,而北宋张载则第一次使用"天人合一"这四个字,将其作为一个思想命题明确地提了
通过MATLAB/SIMULINK构建电磁铆接放电回路的电路模型和数学模型,仿真得到了完整的电磁铆接放电电流及应力波形成过程波形。仿真结果验证了理论分析的正确性,为电磁铆接设备
目的探究黄芪多糖(alp)抑制氧化应激致大鼠软骨细胞损伤及凋亡的作用机制。方法选取SPF级雌性3周龄大鼠,分为活性氧自由基培养组(ROS组)、黄芪多糖组(ROS+alp组),另设空白对
直流融冰是输电线路应对冰灾的一种有效手段。以一条220 kV线路直流融冰试验为例,对融冰线路两侧状态的定义和调度操作要求作了明确规定,分析了通过对矩阵闸刀的切换来调整直流
加强农村公共服务是农村社区建设的重要内容,也是实现城乡平等和协调发展的基本要求。当首我国农村社区公共服务供给不足、服务水平较低的根本原因是公共服务的体制和机制不完
APP是application的简称,即应用程序,包括了各类电脑软件应用程序,移动端软件应用程序。现在大多数人所指的APP即手机应用程序。在网络科技飞速发展的今天,各类应用层出不穷,
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
根据飞行器实际情况,将舱内捷联惯导安装等效为弯扭耦合激励扰动下的Timoshenko梁和阻尼弹簧振子混合系统,分析其激励响应获取惯导随机误差中的有色噪声。将有色噪声作为先验
脉络丛乳头状瘤(choroid plexus papilloma,CPP)起源于脑室脉络丛上皮细胞,生长缓慢.尽管其生物学行为良性,因长于脑室常伴脑积水,导致占位与颅内高压,甚至局限性神经系统损