大数据环境下的分布式数据流处理技术分析与研究

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:acecar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]随着计算机信息技术的快速发展,大数据时代已经来临,在该背景下,人们对数据流处理实时性提出了更高的要求,数据计算对持续性和可靠性提出了更高的要求。通过对分布式数据处理流系统的合理应用,能够完成对大数据环境的数据流处理,并且具有良好的实时处理能力。因此,加强对该项内容的分析是必要的。
  [关键词]大数据环境;分布式数据流;处理技术
  中图分类号:TM917 文献标识码:A 文章编号:1009-914X(2018)21-0145-01
  大数据背景下,数据的具体来源已经不再是人们关心的一项问题,如何从大量的数据中,快速、准确的挖掘出人们所需要的信息内容才是关键,这也是数据分析过程中面临的一项难题。从实际分析情况来看,单机系统已经无法满足海量数据分析要求,如何解决该问题是人们需要深入探讨的一项内容。
  1、消息队列管理技术
  离线数据处理系统中,只需要对数据进行汇总到中央存储系统中,然后定期对汇总后的数据进行处理即可。在数据流处理系统中,因为会有数据不断流入,要通过合理的方式实时处理新增的数据。数据流处理系统与理想数据处理系统相比,在系统中只需要利用一个消息队列系统,便可充当数据缓冲区,通过对该区域进行应用,一方面可以快速收集系统发送的大量数据;另一方面,当数据处理系统处理能力未满负载时,应当尽快将数据发送给数据流处理系统,而如果处理系统处于满载,此时可以对接收到的数据内容进行缓存处理[1]。下面针对目前常用的一种消息队列系统进行详细介绍。
  Kafka作为运营数据管道和活动流的一项重要基础,在2010年就已经处于开源状态,通过近几年的发展,目前其已经被广泛的应用在数据管道和消息系统等不同的应用领域中[2]。Kafka在消息列队系统中应用,具有如下特点:
  (1)高吞吐量,能够在低性能的设备中应用,读写速度能够达到每秒数十万消息的读写。
  (2)支持水平拓展,系统在具体运行过程中,如果集群吞吐量无法满足相应的使用需求,在具体操作过程中,只需要依据实际情况,适当的增加相应的设备,便可使吞吐量近似一条线性增长。
  (3)具有不错的容错,无论消息是否被消费掉,都可以对数据进行存储,并且可以完成对消息内容的多次读取,同时也可以将消息内容合理的拷贝在不同的计算机上,通过该方式,能够实现数据的冗余。
  (4)确保消息的有序性,对消息内容进行分区存储,可以保证每个分区中的数据的具体消费都能够被有序进行。
  Kafka中的每一条消息属于某一个特定的主题(Topic),而一个Topic则是某一类消息的具体分组,并且要依据消息的Topic完成相应的分区,并且要分散到不同服务器的具体日志文件中,然后严格的依据相应的顺序进行存储。每条消息所在的文件中都会有一个不断处于增长状态的长整型偏移量(offset),通过对offset进行应用,可以对一条消息内容进行位移标识[3]。虽然,Kafka是将大量的数据存储到相应的磁盘中,但是磁盘的读写速度很快,甚至会超过内存的随机读取速度,由此可见,Kafka可以确保各项信息内容的快速读取。
  2、分布式流式处理技术
  实时对数据进行收集与汇总,最终形成相应的数据流,为了在短时间内获取到实施应用系统需要的各项数据,需要数据分析系统能够快速的完成对原始数据内容的分析与处理。大数据时代已经来临,在该背景下,单台服务器已经无法满足短时间内大量的数据计算要求,同时考虑数据和业务的增长速度相对较快,因此要数据分析系统本身应当具有不错的拓展性[4]。下面针对一种主流分布式数据处理系统进行重点分析。
  Flink起源于一个项目研究,2014年被Apache 孵化器接收,并且在短时间内成为了一项顶级项目。Flink是一个可以同时适用于数据流和批处理的分布式处理引擎,该内容体现了一种先进的设计理念。数据处理应当为流式,而批处理则是流处理中的一个特例,也就说,在具体问题分析过程中,可以将所有的任务都当作流处理,这也是Flink的一个重要特点。不同节点间的数据传输可以分为以下两种情况:
  (1)流处理。针对实时达到数据流的节点上处理后,系统在具体运行过程中,可以将处理后的结果缓存到当前节点中,同时在该过程中,可以将数据传输到后续的相应节点上,再进行下一步处理,在得到最终结果前,要不断重复该流程[5]。
  (2)批处理。现阶段节点会将需要进行处理的各项数据内容进行逐条处理,并且完成序列转换,然后存储起来,但是在该过程中,并不会立刻将处理后的结果发送给下一个节点,如果出现缓存不足的情况,将会是数据持久化到相应的磁盘上,只有对所有的数据内容都完成相应的处理后,才会将处理后的数据,传输下一个节点,该传输过程中利用网络完成。Flink 通过设置缓存数据的超时时间,同时对应流处理和批处理系统,如果超时时长为0,则执行流处理,若超时时长无限大,则执行批处理。除此之外,还可以通过设置超时时间的长短,达到调节流处理延时的最终目的。
  3、数据流处理未来面临的挑战
  虽然数据流处理技术近几年得到了改进,但是大数据时代的到来,体现出了新的特征,面向大数据的流处理技术仍然面临许多挑战,主要体现在以下几个方面:
  (1)处理结构。Lamba作为一种架构,其被分解为批處理层、服务层、流处理层,通过对该结构的应用,能够完成对任意数据上函数计算问题。例如,在批处理层中,整合了Hadoop,而在流处理层中则整合了Storm,系统具有容错、可扩展等特点。
  (2)数据特征。在大数据时代背景下,数据会随着时间的推移不断改变,因此,数据流处理技术要能够适应该特征,并且在一些特殊情况下,要能够发现数据内容的具体改变,从而使其作用能够得到充分发挥。
  (3)数据压缩。在对大量数据进行处理过程中,要对数据存储空间问题进行重点考虑分析,目前常用的方法为无损压缩和代表性数据采样法[6]。前者消耗的时间较多,但是消耗的空间较少,可以将其看做一种用时间换空间的方法,后者在具体应用过程中虽然可以减少在空间上的开销,但是有可能会丢失信息,在未来的研究过程中,应当结合两种方法,设计出一种专用的压缩技术。
  (4)数据发现。现阶段,无结构和无标注数据的应用越来越广泛,并且起到的作用也更加明显。目前大量的有用数据都未被标注,因此,面向大数据的流处理在未来的一段时间,应当进行具有针对性的数据发现和处理技术设计。
  4、结束语:
  大数据时代的来临,会大幅度加快数据的增长速度,数据的种类会变得更多,如何对这些数据进行合理处理,已经成为人们重点研究的一项内容。本文主要针对消息队列管理技术进行了介绍,并且在此基础上,对分布式流式处理技术进行了详细阐述,最终对未来面临的挑战进行了总结。
  参考文献
  [1] 朱蔚林,木伟民,金宗泽,等.基于MR的高可靠分布式数据流统计模型[J/OL].计算机技术与发展,2018(01):1-10.
  [2] 易佳,薛晨,王树鹏.分布式流数据加载和查询技术优化[J].计算机科学,2017,44(05):172-177.
  [3] 段英杰.基于分布式处理技术探讨物联网数据库的设计要点[J].无线互联科技,2016(02):39-41.
  [4] 徐花芬,毛国君,吴静.分布式数据流分类关键技术研究[J].华北科技学院学报,2015,12(04):119-124.
  [5] 王春凯,孟小峰.分布式数据流关系查询技术研究[J].计算机学报,2016,39(01):80-96.
  [6] 马元文,王鹏,周之敏,等.一种自适应的分布式数据流处理调整技术[J].计算机工程,2015,41(12):15-20+25.
其他文献
[摘 要]锦州油区冬季使用的日生活水量与夏季相比差别较大,导致这一差值的主要原因就是使用点溢流量的流失。经调查,每座基层班站冬季一天因放溢流的外排水量在24方左右,每年采油厂浪费掉的水量在46万方左右,每年浪费掉的水资源费将在155万元左右。本文通过更改班站生活水的工艺流程,增加蓄水池等辅助设施,不仅可以降低员工因为控制溢流而造成的工作强度,而且对于节约能源有着极其重要的经济意义。  [关键词]生
期刊
[摘 要]近年来,计量器具为我国社会经济的建设做出了巨大的贡献,在生活、生产、科研等各行业和领域中有着广泛的应用,计量器具是否准确直接影响着社会经济的建设。鉴于此,本文对计量器具检定的意义进行分析,并对计量器具检定存在的问题展开研究,进而提出加强计量器具检定质量的措施,以期提升计量器具检定数值的可靠性贡献绵薄之力。  [关键词]计量器具 检定  中图分类号:TM503 文献标识码:A 文章编号:1
期刊
[摘 要]本文主要思考了圆柱滚子轴承外径车加工留量对磨加工的影响,对于其影响的各个方面和影响的关键点进行了分析和总结,希望能够为今后的加工带来参考。  [关键词]圆柱滚子轴承,外径,车加工,留量,磨加工  中图分类号:TG506.6 文献标识码:A 文章编号:1009-914X(2018)21-0131-01  前言  在圆柱滚子轴承外径车加工的过程中,要重视留量问题,并明确留量对磨加工的影响,从
期刊
[摘 要]随着科技的快速发展和进步,生物方面的技术掌控,开始走向一个新的潮流,由此创造的经济效益、社会效益非常显著。为了在今后的工作中取得更好的成绩,还需要在生物发酵方面做出积极的研究。文章针对生物发酵过程的在线检测及控制展开讨论,并提出合理化建议。  [关键词]生物;发酵;过程;控制;检测  中图分类号:TP274 文献标识码:A 文章编号:1009-914X(2018)21-0112-01  
期刊
[摘 要]近些年,我们的电子工业迅猛发展,其数字仪表的反应越发灵敏。我们以往使用的加热炉都是以动圈式来控制炉温的,然而,这样的调控方法准确度并不高,而且适用的范围相对较小。鉴于此问题,我们的科研人员研究出一类新的温度控制系统—单片机温度控制系统。本文主要对单片机温度控制法进行系统的分析,并且基于此分析给出了具体的温度控制方案,以期为这些同类系统的使用以及研究给予相应参考,从而完善我们的方案,让其更
期刊
[摘 要]风力发电塔架制造技术作为当前新能源技术、新节能技术的代表,它对于风力发电的基础技术支撑作用不言而喻。而从技术角度讲,它的制造技术体系也相当复杂。为了提高风力发电塔架制造技术水平,本文就专门研究分析了其技术体系中比较有代表性的焊接与平面度控制技术,結合它们的制造技术难度来分析它们在塔架建设中的实际应用。  [关键词]风力发电塔架 制造技术 法兰 焊接变形 平面度控制  中图分类号:X411
期刊
[摘 要]文章以高层居民建筑消防车道设置为目的,首先分析了消防车道存在的问题,其次从消防车道设置方面阐述如何解决消防车道堵塞等问题,最后针对高层民用建筑园区消防车道设置与提高居民自觉性等角度改善问题。  [关键词]高层民用建筑 消防车道 设置问题  中图分类号:TV551.3 文献标识码:A 文章编号:1009-914X(2018)21-0148-01  火灾的危害性众所周知,尤其是民用建筑中,因
期刊
[摘 要]近年来,随着我国基础设施建设步伐的逐渐加快,道路桥梁基础设施建设也得到了较大的改善,而道路路基施工质量直接影响到路面使用品质。路基质量控制的关键是结构稳定性、强度和水温稳定性。必须通过合理选择施工方法、严格施工程序才能保证质量。本文在此从路基施工的质量要求及重要性出发,对道路路基施工质量控制的几个关键要点做了详细的研究。  [关键词]道路;路基;质量  中图分类号:TV551.3 文献标
期刊
[摘 要]如今,“看电影”是人们最喜欢的娱乐休闲方式之一,人们去电影院追求的便是大荧幕所带来的震撼又逼真的视听享受。尽管在全球化信息科技的浪潮下,我国的数字电影放映技术取得了长足的进步,然而,若要与一些发达国家相比,还有许多技术上的问题亟待解决,在电影的放映质量上依然存在差距。为了丰富广大市民的精神生活,提高电影院的人气与效益,我们还应从技术上着手,在摸索中前进,在前进中创新,在创新中钻研,从而给
期刊
[摘 要]针对电气自动化控制,在简单介绍其重要组成部分,PLC系统分类及优势特点的基础上,深入分析它在电气自动化控制领域的具体应用,以此为电气自动化控制未来发展提供可靠依据。  [关键词]电气自动化控制;可编程逻辑控制器  中图分类号:TM76 文献标识码:A 文章编号:1009-914X(2018)21-0126-01  PLC,即可编程逻辑控制器,它是一种专门为工业生产设计的操作系统,运用可实
期刊