基于Spark的网络日志分析系统设计与实现

来源 :无线互联科技 | 被引量 : 0次 | 上传用户:Elf_nastia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:当下,互联网技术已经广泛地应用于企业办公系统。企业在需要对业务进行处理时,对互联网有着较高的需求。在利用网络技术的基础上,工作人员可以有效地借助飞快的信息传播速度,降低工作的成本,同时也可以进一步提升办公的整体效能。因此,文章针对Spark的网络日志,进行系统设计、分析以及阐述,以此为相关领域的研究人员提供参考。
  关键词:Spark;网络日志;系统构建;逻辑处理;网页展示
  0    引言
  现阶段,大多数用户以及行业都在使用互联网技术,但却没有良好的信息安全意识。而当下的网络环境也越发复杂和危险,使得信息安全风险管理工作日渐成为企业日常风险管理的重要内容。企业需要有效地分析以及处理网络日志,以此充分保障企业不会受到网络威胁。本研究为整个系统的优化以及维护提供一定的数据参考。
  1    网络环境
  在互联网发展的背景下,网络应用于政务办公系统中。各行各业不断地利用网络,确保能够获得更多的信息以及数据。这使得办公事务也可以顺利地利用互联网实现高效率的工作。一项调查显示,我国四成以上企业员工在办公的过程中,使用网络的时间与工作未产生必然的联系,甚至是访问一些恶意的网站,因此影响了工作效率。企业在未来的发展过程中,须改进网络日志方面的分析系统,保障在运用互联网的过程中,有着较高的安全性。
  2    基于Spark的网络日志分析系统的设计
  2.1  Spark
  Spark是UC Berkeley AMP lab研发的一种开源集群计算框架,并使用Scala,是基于Hadoop所实现的一种分布式的文件系统类型。最开始研发的目的是为了有效地在一个开源软件平台上进行工具的执行,但是最后经过长期的研发,形成了一个较为完整的系统类型。Spark可以有效地提供内存集群计算的效果。在数据信息的处理过程中,其可以将一些中间输出以及结果完整地保留在内存中,不需要再次进行读写处理。这种信息处理方式可以有效地顺应机器的学习,同时也可以有效地进行数据方面的深度挖掘。而在进行迭代计算的过程中,相较于Hadoop,Spark有着更高的效率性[1]。
  2.2  总体结构
  2.2.1  节点层
  节点层的设计处于最底层。它是由多种机器节点构成的互联集群环境,同时也是现阶段网络日志在分析系统中的一种物理层。
  2.2.2  任务管理模块
  任务管理模块主要是针对不同的Spark集群任务,所开展的管理调度。而在系统进行配置方面的管理过程中,设计人员还可以有效地实现人物配置、任务状态监控以及任务调度。系统在使用的过程中,能够有效地定时执行每日任务。而该模块还包含两个不同的部门,由Spark框架以及分布式管理系统构成。
  2.2.3  Spark
  Spark是一种基于MapReduce的并行计算框架,但是与MapReduce不同的是,在使用的过程中,其产生的计算结果可以保存在内存中,以此就可以在计算的过程中有效降低延迟性,进一步提升交互效果。另一方面,设计人员还需要在Spark的使用过程中,实现更加广泛的数据集操作,保障数据库、流处理以及图计算满足各种方面的需求。虽然Spark是一种较为独立的项目,但是依然可以在设计的过程中,实现与分布式文件系统共同运作。同时,也可以直接在HDFS上利用YARN,在MapReduce上一同进行作业[2]。
  2.2.4  HDFS
  HDFS是一种分布式文件系统,主要为计算机存储功能提供一定的底层支持。在设计的过程中,HDFS可以有效地作用于一些廉价的硬件上,并且可以有着较高的容错性,另一方面,还可以成为一个较为流行的海量数据存储。
  2.2.5  日志采集模块
  该模块主要是为了能够对上游的一些带解析的日志数据位置进行详细的解析,以此在自动收集的过程中,对于企业的内部网络进行Squid服务器的日志数据分析。在全部收集之后,使用者便可以对数据进行预处理,之后依据数据的实际要求,进行加工。在处理的过程中,日志采集模块可以实现对于数据的一致性、完整性、丢失性等方面的操作。而子模块还可以针对性地筛选日志数据,将数据转换成可以分析的数据形式,之后将其采集到日志数据中。Spark进行集群节点方面的儲存。
  2.2.6  逻辑处理模块
  该模块主要与Spark进行集群方面的交互。而对于用户而言,该模块可以有效地在网页端进行相应的操作,之后对业务数据进行查询,对HQL进行语句方面的定制。
  2.2.7  网页展示模块
  该系统主要基于Web。在查询之后,该模块就可以返回到结果数据,之后对不同的搜索进行分析,保障在分析的过程中,能够形成信息数量较多的网页。
  3    基于Spark的网络日志分析系统的实现
  在上述的结构设计下,为了检验系统的合理性,设计人员可以进行研究和分析。
  3.1  系统部署
  如图1所示,本系统的实现,需要依靠CICS交易服务器、Hive数据仓库、客户端、Liberty服务器、Spark集群,对脚本进行上传,对日志进行存储、提取与分析、生成报告等。
  3.2  任务调度
  Spark分析模块是Scheduler最重要的核心组成部分,需要在应用的过程中,运用Hadoop MapReduce。而在资源管理以及调度的过程中,Spark使用的方式基本上基于YARN。这种资源调度器可以有效地在使用的过程中,起到资源调度分配的作用。在不同的应用当中,它都能够实现任务调度器的作用,以此对于任务进行调度以及协调。对于这种上层资源调度而言,应用内部的任务调度较为独立[3]。
  3.3  用户需求数据分析
  在实现的过程中,首先基于用户的实际需求,将请求的数据进行分析以及计算,之后再将分析的结果进行返回。返回基本上可以分为图片以及纯数据这两种不同的类型。在使用的过程中,工作人员有效地利用getData进行数据信息的调用以及分析。在前台的信息处理过程中,技术人员可以有效地利用前台调用JFreeChart工具,进行相应的分析。
  在现阶段的发展过程中,Spark已经成为十分热门的一种开源项目,并广泛地应用到各种企业中。在研究中,该技术也能够起到十分有效的作用,足以帮助企业在日常的网络日志的管理过程中,实现安全性以及质量性的管理目标。另外,这项技术还可以定期优化以及改进。
  3.4  日志处理
  为确保基于Spark的网络日志分析系统能够有效实现,工作人员对日志进行处理非常重要,具体方法如下:(1)日志上传:系统中日志的上传方式包括两种:手动与自动。手动上传需要依靠CICS交易服务器的部署功能,自动上传则需要依靠Web来实现。(2)日志处理:工作人员可通过日志分析系统对日志进行处理,利用系统部署中的Spark集群功能进行计算,并实现对不同节点日志的分析,经分析后的数据可被返回并自动汇总,以备使用。
  4    结语
  综上所述,文章主要基于Spark的构建,分析了企业网络日志分析技术。为了进一步提升企业的网络安全性,技术人员还需要在日后的发展过程中,对网络系统的进行优化。
  [参考文献]
  [1]李言飞,张鹏,戚晓鹏,等.中国疾病预防控制信息系统网络日志大数据分析[J].中国卫生信息管理,2018(6):625-628.
  [2]李亚红,胡前忠.分布式网络日志分析系统的设计与实现[J].信息与电脑(理论版),2018(21):163-165.
  [3]张扬.基于大数据技术的网络日志分析系统[J].电子技术与软件工程,2018(17):175.
  (编辑 王永超)
其他文献
摘 要:医院工作具备的特殊性较为显著,所以往往会高要求网络安全管理及维护。因此为确保医院信息化建设得以持续、深入推进,为医院信息系统安全运作提供保障,就必须要在计算机网络管理及维护方面加强力度,使医院信息网络工作效率及安全性水平最大限度提升。  关键词:医院信息化建设;计算机网络安全;管理;维护  0 引言  目前,网络信息技术已经普及到社会的方方面面,同时,信息化建设也开始在各行业中广泛推进并
摘 要:基于机载宽带卫星通信系统的应用,可减弱外界因素给卫星通信所带来影响,使通信可靠性得到有力保障。文章首先分析了通信系统应用现状;其次对卫星通信系统特征进行论述,明确系统构成和通信系统信号损耗问题;最后研究了与机载卫星通信系统相关技术,并对未来发展趋势进行探究,以期全面提升机载卫星通信系统服务能力。  关键词:机载宽带;卫星;通信系统;技术  0 引言  随着互联网技术的发展,机载通信卫星
摘 要:物联网技术与当前的大棚种植技术相结合,可使大棚蔬菜的产量和质量有显著提高。文章介绍了将物联网技术与大棚种植相結合,作用于大棚内部环境,改善植物的生长条件,并对可能存在的问题提出了解决方法,总结了物联网与农业结合的发展前景及意义。  关键词:大棚蔬菜;种植技术;物联网技术应用  0 引言  物联网技术与大棚种植技术相结合,将灌溉、温控等设备通过传感器和检测装置与计算机互相连接,研究制造适于
摘 要:近年来,中国“互联网+”技术发展极为迅速,以淘宝、京东和拼多多为代表的网络销售平台备受人们追捧。在网上购物时,顾客不能提前试用产品,这也给很多消费者带来了疑惑。产品是否方便耐用,产品的功能美与形式美是否合理成为消费者购买产品的关键因素。在网上交易量不断增加的背景下,网上商品包装的功能和作用与传统的商品包装设计有很大的不同。文章对“互联网+”技术时代的消费者所期待的产品包装技术和包装设计效果
摘 要:不断发展的数控理念以及相应的自动化电子信息工程技术,是推动工业发展关键技术构成。自动化电子信息工程技术涵盖了多项内容,即计算机技术、信息技术以及新型电子技术等,在电子信息工程设计和我国的工业生产中已经被大量地应用。文章分析了自动化技术在电子信息工程设计中的实践情况,供相关人员参考。  关键词:自动化技术;电子信息工程设计;实践策略  0 引言  自动化技术属于先进的技术,可改善人们繁重的
文章从智慧环境监测产生的海量原始数据入手,提出一种基于大数据获取、存储、管理、分析的智能监测分析方法,并通过聚类算法、关联特征挖掘环境保护中的隐含信息,旨在更好地发挥环境保护的作用,提升环境监测管理的水平,促进环保事业的发展。
摘 要:文章基于云计算技术,利用多通道组件设计稳定的跨平台的学生信息管理系统(Students Information Management System,SIMS),解决学生信息管理过程中存在的信息不统一、信息滞后等问题。系统改变了传统信息手动记录模式,并在多个用户间共享信息以及无延迟或无死锁地执行其任务;软件开发采用基于Web应用技术,并对系统功能模块所具备的功能进行了详细介绍。  关键词:云
摘 要:近年来,中国家装市场规模不断增大,家装形式也逐步趋向个性化,但在快速发展的过程中,仍存在诸多问题,如隐蔽工程可控性差、方案过程修改难度大、装修成本计算不精确等问题。针对上述问题,文章提出将BIM技术应用于家装行业,借鉴BIM技术在建筑主体结构中的应用经验,挖掘BIM在装饰装修阶段中的应用拓展,并构建BIM智慧家装平台,以期推动家装行业的进一步发展。  关键词:装饰装修;BIM技术;管理系统
摘 要:书证融通是1+X证书制度试点工作的主线,设计完善的土建类书证融通云平台是深化校企合作、实施分配培育土建人才的关键。文章立足于教育信息化视角,阐述书证融通云平台建设的思路与内容,提出土建类书证融通云平台实施的对策。  关键词:1+X证书制度;书证融通;信息化;云平台  0 引言  我国进入信息时代,教育信息化成为职业院校人才培养的重要趋势特征。随着1+X证书制度在高职建筑专业的全面实施,依
摘 要:无论是移动通信技术还是互联网技术都是科技创新的产物,而两者的融合则是网络时代技术创新与应用的必然要求。移动通信技术与互联网技术的结合也带来了新的网络使用体验,打造了全新的网络应用环境,也带动了新时期网络体系的完善、格局的调整等。文章主要就移动通信技术与互联网技术的结合问题进行探讨,明确两者概念、融合必要性及应用价值的基础上,重点探讨移动通信技术与互联网技术的有效结合策略,以实现其结合应用价