浅析Flume大数据日志采集系统

来源 :科学与财富 | 被引量 : 0次 | 上传用户:maye626
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:随着大数据、社交网络、云计算等技术不断融入我们的生活以及现有的计算能力、存储空间、网络带宽的高速发展,人类积累的数据在互联网、通信、金融、商业、医疗等诸多领域不断地增长和累积。在大数裾学习、开发过程中,会产生各种各样的数据源信息,如网站流量日志分析系统产生的日志数据,这些数据的收集、监听、使用非常重要。针对类似业务需求,通常会使用 Apache旗下的Flume日志采集系统完成相关数据采集工作。本文主要对Flume大数据日志采集系统进行介绍。
  关键词:大数据;Flume;日志采集
  近几年来,随着计算机和信息技术的迅猛发展和普及应用,行业应用系统的规模迅速扩大,行业应用所产生的数据呈爆炸性增长。动辄达到数百TB甚至数十至数百PB规模的行业/企业大数据已远远超出了现有传统的计算技术和信息系统的处理能力。如何对产生的大数据进行采集是大数据处理面临的问题之一。Apache Flume是一个高可靠、高可用的分布式系统,用于高效地从许多不同的数据源收集、聚合大批量的日志数据,进行集中式存储。Flume最早是Cloudera公司提供的一个高可用的、高可靠的、分布式海量日志采集、聚合和传输系统,之后纳入到了 Apache旗下,作为一个顶级开源项目。Apache Flume不仅只限于日志数据的采集,由于Flume采集的数据源是可定制的,因此Flume还可用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息以及几乎任何可能的数据源。本文接下来主要对Flume的架构和相关组件进行介绍。
  1  Flume的运行机制和系统结构
  1.1Flume运行机制
  Flume中有3个核心组件,它们分别是数据采集器(Source)、缓冲通道(Channel)以及接收器(Sink)。Flume的核心运行机制就是把数据从数据源,例如Web Server,通过数据采集器(Source)收集过来,再将收集的数据通过缓冲通道(Channel)汇集到指定的接收器(Sink)。Flume的基本架构中有一个Agent,它是Flume的核心角色,Flume Agent是一个JVM进程,它承载着将数据从外部数据源流向下一个目标的3个核心组件Source、Channel和Sink。
  数据采集器Source用于源数据的采集,(例如从一个Web服务器采集源数据),然后将采集到的数据写入到Channel中并流向Sink。
  缓冲通道Channel是一个缓冲队列,它用来对Source中的数据进行缓存,并将数据髙效、准确地写人Sink,当数据全部写入Sink后,Flume就会删除该缓存通道中的数据。
  接收器Sink接收并汇集流向Sink的所有数据。根据需求,可以直接对数据进行集中式存储(例如采用HDFS进行存储),也可以继续作为数据源传入其他远程服务器或者Source中。
  在整个数据传输的过程中,Flume会将流动的数据封装到一个event中,event是Flume内部数据传输的基本单元。一个完整的event包含headers和body,其中headers包含了一些标识信息,而body中就是Flume收集到的数据信息。
  1.2Flume系统结构
  在实际开发中,Flume需要采集数据的类型多种多样,同时还会进行不同的中间操作,所以根据具体需求,可以将Flume日志采集系统分为简单结构和复杂结构。
  当我们需要采集的数据源比较单一、简单的时候,可以直接使用一个Agent来进行数据采集并最终存储,这就是简单结构。
  接下来介绍复杂结构,有时候Flume需要采集的数据源分布在不同的服务器上,使用一个Agent进行数据采集就不再适用,这时,就可以根据业务需求部署多个Agent进行数据采集,在开发中还有可能遇到Flume从同一个服务端采集数据,然后通过多路复用流分别传输并存储到不同目的地的情况,这就是复杂结构。
  2 Flume核心组件
  2.1 Flume Sources
  在Flume日志采集系统中,采集方案是开发者需要编写的核心部分,而在采集方案中需要根据不同需求来分别针对Source、Channel和Sink进行配置。
  在编写Flume采集方案时,首先必须明确的是采集的数据源的类型以及出处,接着,根据这些信息与Flume已提供支持的Flume Sources类型进行匹配,选择对应的数据采集器类型,也就是type属性;然后,再根据选择的数据采集器类型,配置必要和非必要的数据采集器属性,完成Flume Sources的配置。比较常见的Sources类型有Avro Source,它可以创建分层集合拓扑,利用Avro Source可以实现多级流动、扇出流、扇入流等效果。
  2.2 Flume Channels
  Channels通道是event在Agent上暂存的存储库,Source向Channel中添加event,Sink在读取完数据后再删除它。在配置Channels时,需要明确的是将要传输的sources数据源类型;接着,根据这些信息并结合开发中的实际需求,选择Flume已提供支持的Flume Channels;然后,再根据选择的Channel类型,配置必要和非必要的Channel属性。比较常见的Channels类型有Memory Channel和File Channel。Memory Channel会将event存储在具有可配置最大尺寸的内存队列中,它非常适用于需要更高吞吐量的流量。File Channel是Flume的持久通道,它将所有event写人磁盘,因此不会丢失进程或机器关机、崩溃时的数据。
  2.3 Flume Sinks
  Flume Sources采集到的數据通过Channels就会流向Sink中,此时的Sink类似一个采集到的数据集结的递进中心,它需要根据后续需求进行配置,从而最终选择是将数据直接进行集中式存储,如直接存储到HDFS中,还是继续作为其他Agent的Source继续传输。
  在配置Sinks时,需要明确的就是将要传输的数据目的地、结果类型;接着,根据实际需求,选择Flume已提供支持的Flume Sinks类型;然后,再根据选择的Sinks类型,配置必要和非必要的Sinks属性。
  3结论
  在当前大数据、社交网络、云计算等技术中,如何对产生的大数据进行采集是大数据处理面临的问题之一。Apache Flume是一个高可靠、高可用的分布式系统,用于高效地从许多不同的数据源收集、聚合大批量的日志数据,进行集中式存储。通过理解Flume的工作原理和机制,对Flume的核心组件进行配置就可以快速搭建高效可靠的大数据日志采集系统。
  参考文献:
  [1] 孟小峰,慈祥.大数据管理:概念、技术与挑战.计算机研究与发展,2013,1.
  [2] 张彦超,刘云,张海峰,程辉,熊菲.基于在线社交网络的信息传播模型.物理学报,2011,5.
  [3] 陈康,郑纬民.云计算:系统实例与研究现状.软件学报,2009,05.
  [4] 赵志伟.大数据平台实时计算监控方案分析.自动化与仪表,2020,04.
  (武汉软件工程职业学院  湖北 武汉   430205)
其他文献
摘 要:中华文化历史悠久、源远流长,凝结了古人的智慧,还具有许多灿烂的人类文化遗产,其中这些遗产包括诗歌辞赋和文玩摆件,其中古建筑是文物的重要存在形式。古建筑是劳动人民辛勤耕耘的结晶,突显出城市的形象,更具有历史意义。随着我国国民经济的不能提升,旅游行业不断发展,古建筑逐渐被开发和保护,但在开发过程中,出现许多问题,甚至面临不可逆转的后果,因此本文通过分析文物保护开发的工作做出正确决策。  关键词
期刊
摘 要:产教融合的内涵之一是专业与创业的融合。为探究有哪些因素会影响大学生选择创业之路,重庆建筑科技职业学院双创研究中心对在校大学生展开调查。结果显示影响大学生选择创业之路的因素主要有自身素质、学校引导、政府支持三个层面。提高大学生创业水平可以从以上三方面努力。  关键词:产教融合;大学生创业 ;影响因素  鼓励大学生自主创业是有效缓解大学生就业压力的有效方法之一。同时近年来我国高校教育大力倡导产
期刊
摘 要:21世纪随着科学技术的不断发展,人们对生活水平的要求也越来越高,近年来电动汽车的发展是社会重点关注的话题。现阶段我国电动汽车的发展已经逐渐成熟,但是在电动汽车的使用过程当中或多或少的会存在一些问题,所以在电动汽车使用之前都会进行整车运行性能检测实验,本文根据国内外的检测标准,对电动汽车的使用过程当中的安全性能、动力性能、经济性能进行全面的分析,利用科学合理的检测方案与实验设备来进行实验,检
期刊
摘 要:重大突发事件档案是在处理重大突发事件过程中直接形成的文字、声像、实物等不同载体的具有保存价值的原始记录,它作为重大突发事件处理过程的产物,对社会的应急管理有着不可替代的价值。高等院校作为特殊的群体,在每次重大突发事件的管理过程中,形成了大量的相关文件、声像、实物等不同载体的具有保存价值的原始材料,是高校应对重大突发事件的宝贵经验记录。本文通过对加强高校重大突发事件专题档案管理机制必要性分析
期刊
摘 要:社区作为党和政府联系城市基层的平台,其文化反映整个城市的精神面貌、生存环境以及城市社区居民文明素养,在经济发展大潮背景下,面临外来思潮和人们的固有观念冲击。社会主义核心价值观是以“以人为本”的社区文化建设,用社会主义核心价值观根植社区文化,培育社区文化,推动社区文化,对于广大居民凝心聚力共筑温馨家园,共建和谐社会意义深远。  关键词:社会主义核心价值观;居民小区;培育意义;问题与对策  引
期刊
摘 要:情景教学是一种教学模式、教学活动它是根据教育学、心理学、教学论原则创设舒适的教学环境,使教师能够顺利且有效的完成教学过程,并且在课堂上让同学们达到即有速度又有效率的学习效率,激发学生主观能动性,从而实现愉快教学,传统小学音乐课堂存在诸多的问题,只是教师教唱的教学活动,忽视了学生的积极主动学习的能力。把情景教学运用到小学音乐课堂中,让学生通过趣味化游戏化的学习,对音乐有全新的认识。本文通过文
期刊
摘 要:我国是矿业大国,已经成为世界上最大的矿产品生产国、消费国和贸易国,矿产资源勘查、开发利用水平不断提升, 从1990年的20%~30%增长到当前的70%~90%以上。目前,中国年矿石开采总量超过300亿t。露天开采回采率总体稳定在96%以上;地下开采回采率提高到79%。矿业在我国国民经济中占有重要地位,目前矿业经济全国GDP的比重超过了30%。  关键词:露天矿山;粉尘;污染控制;靜态粉尘抑
期刊
摘 要:社区教育是继续教育的重要组成部分,也是建设新时代学习型社会的重要方面,而书法培训与教学又是社区教育不可或缺的课程,几乎只要有社区教育的地方,就会有书法课程,那么如何根据社区书法课程教学对象的特点,科学把握社区教育中书法教学的任务,并为实现这些任务而采取适当的方法,把社区教育书法教学组织好,是我们从事社会教育工作者及书法教学的教师所应该研究的课题,作者通过本文意在从社区教育书法课程教学对象的
期刊
摘 要:随着网络信息、计算机等高技术的飞速发展大大加快了教学信息化的前进速度。国际贸易实务课程是国际经济与贸易类专业的核心课程,而目前高校存在教学模式单调、学生自主学习意识淡薄等问题。“互联网+”时代的在线开放课程赋予国际贸易实务新的教学模式——混合式教学。基于在线开放课程的混合式教学模式不仅使得学习资源更加多样化,而且推进了传统教学模式改革。为此,提出充分利用在线网络平台进行线上线下混合式教学模
期刊
摘 要:利用大数据加强高校学生管理,不仅能够精准刻画学生用户画像,而且还可以掌握学生思想动态,帮助学生精准对接就业需求,提升学校管理水平。本文首选从落实“以人为本”理念、实施个性化管理等三个方面,阐述了大数据在高校学生管理的意义,并提出了大数据在学生管理中的应用途径。  关键词:大数据技术;学生管理;高校管理  信息时代大数据技术被广泛应用在各个领域,对于高校大学生管理而言,通过大数据能够收集大学
期刊