面向大数据中心的智能运维的架构与实现

来源 :中国电气工程学报 | 被引量 : 0次 | 上传用户:ahhfwwzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘  要:随着信息技术的不断改进与提高,大数据时代已经来临,人工智能被应用到各行各业。各类大数据中心的出现对IT运维的模式提出了新的标准和要求,智能运维凭借无可比拟的优势脱颖而出。本文通过分析运维的发展历程,对比传统运维与智能运维的优劣势,提出了大数据中心的智能运维方案和实现途径。
  关键词:智能运维;数据中心;架构
  中图分类号:       文献标识码:
  Abstract: With the continuous improvement of information technology, the age of big data has arrived, and artificial intelligence has been applied to a variety of industries. The emergence of big data centers puts new standards and requirements on the mode of IT operation and maintenance. AIOps stand out with unparalleled advantages. By analyzing the development history of operation and maintenance and comparing the advantages of traditional operation and maintenance with AIOps, we will put forward the structures and implementations of AIOps of big data center.
  Key words: AIOps; Big Data Center; Structures
  1  引言
  随着IT行业的发展和信息化水平的不断提高,数据中心的规模也在日益扩大,这不仅体现在需维护的服务器数量上,也体现在产生的运维数据量上,单纯依靠投入大量人力进行巡检及监控已不能满足日常运维的需求,这对IT运维的模式提出了新的标准和要求。另一方面,随着大数据时代的到来,人工智能(Artificial Intelligence,AI)技术在各行各业中得到了越来越广泛的应用,智能运维便是将AI技术应用到IT运维领域的实例,借助运维自动化、大数据、桌面虚拟化等技术手段,实现对所有设备的监控,能极大提高IT运维管理效率。
  2  智能运维的概念及优势
  2.1  基本概念
  根據国际上对智能运维的最新定义,智能运维(Artificial Intelligence for IT Operations, AIOps)是ITSM、ITOM和 IT 自动化三大方面的全面融合,自动化处理传统IT运行和维护,以提升运行和维护效率。作为AI、大数据和IT运维融合的产物,智能运维成为现代传统企业数字化转型的必然选择。
  2.2 智能运维的优势
  (1)传统IT运维存在的问题
  传统的IT运维管理模式是被动的,其存在以下三点问题。一是运维成本高。传统运维受限于技术和人力等原因,系统一旦出现故障产生告警后,运维人员需要逐条进行手工排查,不仅要付出大量的人力,还要浪费大量的时间;二是无预警。传统单一的运维模式没有设置全面的系统监控,对于系统即将出现的故障和问题不能及时预判和告警,无法做到防患于未然;三是缺乏快速有效的分析解决工具。面对大量的操作和维护数据,越来越多的运维场景和问题无法用传统的方法来解决,传统运维手段已经不能适应现有大数据环境下的新形势。
  (2)智能运维的优势与特点
  相比传统运维的模式而言,智能运维具有不可比拟的优势。从技术层面上看,智能运维的优势和特点主要包括以下四个方面。一是“可存储”,可以形成庞大的数据库,可以迅速的对系统内的各类数据数据进行存储、检索和调用;二是“可关联”,以自身庞大的数据库作为支撑可以对存储的数据进行关联分析;三是“可预测”,通过构建数据知识库和自我学习能力,对数据进行对比分析和阈值分析,建立分析预测系统,可以对系统异常等提前告警;四是“可溯源”,针对系统发出的告警和异常状态,可以根据溯源组件实现根源追溯,查看引起异常的数据流和位置,以便快速定位问题根源,实现自动化修复等后续运维工作。
  总体来说,智能运维的工作模式优势在于可以通过自我学习实现自动化运维和自动故障判断处理,是集“自我学习、自我监控、自我校验、自我修复”四位一体的运维平台。智能运维的推广和运用将可以有效降低传统IT运维高成本低效率的困境,使运维管理实现“易见、易管、易控”。
  3  大数据中心的智能运维建设
  3.1  大数据中心的现状及需求
  随着大数据时代的到来,数据中心建设的理念也进入一个云时代,越来越多的大数据中心出现在各大企业的建设清单中。第三代以计算机计算为核心的机架式服务器机房的数据中心方兴未艾,第四代以大数据计算为核心的大数据中心已经走上舞台。一个大型的数据中心部署拥有多云的数据基础设施环境,可以提供机房、设计、功能、资源四大服务类型,装机容量均在5000机架以上甚至上万机架,面对如此庞大的容量,大数据中心的运维工作就更加重要了。
  当一个数据中心的建设规模越来越大,承载的业务种类和数量越来越多,对于数据的快速处理、高速传输、实时响应等要求不断提高,其面临的问题和挑战也日益增加。
  3.2  智能运维的解决方案框架
  目前,大数据中心的IT系统具有数据节点多、系统规模大、运行速度快等特点。因此,大数据中心智能运维的落地需要循序渐进,分区域分步骤的进行架构。整个大数据中心的智能运维系统可以分为可以分为五大逻辑板块来进行架构。具体如图1所示。   图1  大数据中心的智能运维系统架构示意图
  (1)数据采集存储板块
  该板块包含数据采集器和数据存储器。数据采集器采用分布式布局,通过动态化的采集方式对底层的多种不同的运维平台进行数据的收集工作;数据存储器使用My SQL和MongoDB结合的方式,对于数据量小和有稳定结构的配置类数据统一存储在SQL结构化数据库中,而大量的运行数据、日志等具有实时性、不稳定性的的数据均存储到非结构化的数据库中。
  (2)数据学习储备板块
  该板块将数据采集存储板块的数据进行再整理,分为元数据、状态数据和事件数据三大类进行分门别类,利用自我学习的功能,形成数据知识库。通过该板块的设置,将数据建设变成一个持续的过程,是智能运维的建设重要的一部分。
  (3)数据分析处理板块
  该板块是智能运维最核心关键的一部分,由数据计算和数据执行两部分组成。数据计算主要是对采集存储的数据进行实时处理分析,检测监控数据的实时变化,对数据汇聚、数据加载、数据异常等问题进行感知分析并提前告警;数据执行则是对部署、执行命令等数据操作控制进行写入操作。
  (4)数据决策执行板块
  该板块是智能运维的“大脑”,控制整个智能运维的行为。根据前三个板块的采集存储、自我学习和分析处理,根据逻辑判断规则和算法组件的设置形成异常检测、故障预测、止损决策、根因诊断、容量预测等策略库,可以根据整个系统平台出现的需求自动给出运维策略并自动处置,让决策执行过程“可定位、能复用、有针对”。
  (5)数据可视化板块
  数据可视化板块将分析结果、决策策略等数据通过可视化组件变为简单易懂的图表或图,将数据直观地展现出来,实现数据的可视化、场景化以及实时交互,以帮助非运维人员对数据更好的理解,根据直观的图表或图可以更好的找出包含在海量数据中的规律或者信息。
  3.3  智能运维的预期价值与实现途径
  智能运维在大数据中心建立起来之后,将产生不可估量的使用价值,其主要IT运维的自动化、智能化实践可以从以下几个方面进行实现。
  (1)自动化进行日常数据巡检
  作为智能运维最基础的任务就是进行日常的巡检运维工作,每日重复化的巡检工作,看起来简单,但需要定时进行重复执行。智能运维系统通过设定逻辑组件,可以对大数据中心的软硬件环境、设备端口的状态和负载、数据流量和空间使用率等日常巡检工作内容进行自动巡检并生成日志和报告。
  (2)自动化进行配置管理
  随着大数据中心的运营环境越来越大,采集存储基础组件的管理成为配置管理员的巨大的工作量,尤其是这些组件还在不停的变化和关联。实施智能运维后,对系统的基础组件进行标准化和规范化设置,保证运维工具可以自动从资源环境中提取配置库信息,自动更新到配置库中,最终实现配置项和属性的自动更新。
  (3)自动化进行系统故障预判和修复
  作为智能运维最突出的价值就是预判和自动故障修复功能。智能运维通过自我学习功能,通过数据库分析、检测等组件联合,可以预判即将面临的问题和威胁,将通过提前告警等对故障进行预判。一般系统故障的出现会经历“发现、诊断、决策、执行”四个阶段。在这四个阶段中,通过前两个阶段(即发现和诊断)结合知识库板块,明确处理决策执行修复命令。
  (4)可视化进行数据流展示
  作为智能运维的重要一环,在智能运维终端可以通过对采集存储的数据流,通过设定的可视化大数据组件,实现对全网数据的有效识别;对访问关系、流量构成、异常行为等实现可视化。将数据、组件和终端之间的访问关系、会话特征、异常的访问路径、非正常的数据出口、异常的TCP连接等问题以具象的形式展现出来。
  (5)自动化进行资源申请调配
  智能运维可以利用资源监控的手段有效地监控一组或多组资源指标,并且根据系统资源当前的使用情况进行适当适量的动态伸缩。当资源不足的时候,根据约定的规模比例部署节点并将其添加到当前的运行环境中。当资源利用率很低时,又可以回收资源以避免造成资源的浪费。
  4  结束语
  综上所述,智能运维基于人工智能的自我学习和深度学习技术,创新了运维模式的构建和实现方式,可以提高大数据爆炸时代的运维工作效率,是未来运维工作的主导方向。目前,部分數据中心已经在智能运维方向上进行了一定的尝试,并且取得了非常好的效果和用户体验。未来,针对不同的应用场景和需求,更好地利用智能化工具关联分析数据、深入挖掘数据的价值将是智能运维的主要研究方向,本项目将结合自身的运维需求,探讨适宜的实现智能运维的技术路线和方案。
  参考文献:
  [1]钟湘琼.基于云计算的大数据只能运维系统设计.信息通信[J],2016.2
  [2]罗砚.基于大数据的信息系统运维智能化研究.邮电设计技术[J],2018(3)
  [3]毛开梅.大数据之智能运维系统设计及应用.网络与信息工程[J],2018(14)
  [4]刘世发,毕永军.智能化运维的探索与实践[J].金融电子化,2017,08.
  [5]李鹏.基于云计算的大数据运维系统的设计与实现[D].天津大学,2017.
  [6]刘莹旭.智能运维中心信息集成技术研究[D].上海交通大学,2013.
其他文献
摘要:电能计量的信息化管理在电力企業的发展中扮演着重要的角色,电能计量的信息化管理尤为重要。本文简单介绍了电能计量管理信息管理的基本功能,提出电能计量管理中存在的问题并提出了解决的措施,对电能计量自动化、信息化管理工作提出指导意见。  关键词:新时期;电能计量;信息化  引言  在我国电力电能计量工作当中,主要采用人工到现场抄表的方式,这不仅工作效率低,而且数据容易出现错误。而随着信息化技术的不断
期刊
摘要:随着经济和科技的不断发展,互联網技术已经遍布生活各个角落,给人们的生活带来了一些影响。虽然人们的生活品质因互联网技术而有所提高,但同时也暴露出了一些严峻的问题。比如说网络安全,涉及到的安全隐患有个人信息泄露、网络瘫痪、系统漏洞等。本文主要对网络安全问题进行了分析,并探讨了如何运用计算机管理技术维护网络安全。  关键词:计算机;信息管理技术;网络安全;应用策略  引言:当前,我们正处于信息化高
期刊
摘要: 本文介绍了连接器的新動向,面对新的形势,结合国内武器装备发展计划,从战略发展的高度力主重点发展七种连接器。连接器的生产加工发展趋势。  关键词:连接器;新形势;动向;发展重点。  连接器应用背景介绍  连接器的作用非常单纯:在电路内被阻断处或孤立不通的电路之间,架起沟通的桥梁,保证信号顺畅连续和可靠地接通,使电路实现预定的功能。连接器是电子设备中不可或缺的部件,凡是有电子系统存在的地方,就
期刊
摘要:在信息时代,电力信息系统的应用促进了电力企业的发展,增强了电力系统运行的安全性与稳定性,对满足用户需求其有重要意义。文章介绍了我国运行维护管理存在的问题、运行维护管理的科学性以及运维管理人员工作量的不足。基于此,本文将对电力信息系统运维管理自动化发展中的问题提出一些解决方案以及发展前景。  关键词:电力信息系统、运维管理、自动化、解决措施  随着经济发展的速度越来越快,工业生产以及人们的日常
期刊
摘要:国有企业是我国经济发展的支柱企业,是改革发展的重要部分,国有企业的经营管理是保证企业健康发展的前提,国有企业经营活动的管理者和组织者是国有企业的经营管理者,直接管理我国的国有资产。在市场激烈竞争的环境下,国有企业必须完善企业的经营管理制度,加强建设高素质的国有企业管理者队伍,创建新时期的发展战略。因此,对于国有企业而言,不仅要加强经营管理,还要重视发展战略的分析及其导向作用,避免战略管理出现
期刊
摘要:电力档案是对电力企业过去各项業务活动、管理工作和内部经营状况的完整记录,其能为电力企业管理人员作出正确经营决策和为电力企业未来各种工作提供有效的理论依据,从而能促进电力企业的管理水平和市场竞争力不断提高。然而,在实际管理工作中,电力档案管理涉及的专业领域较广、内容较多,管理具有一定的难度,在“互联网+”形势的社会背景下,虽然有不少电力企业开展了档案管理信息化建设,但是,受多方面因素的影响,导
期刊
摘要:近年来,随着我国经济的飞速发展,电力信息通信行业发展的也十分迅速。在取得这些重大的进步同时,电力信息通信相关的数据采集工作也得到了广泛的发展。为了更进一步地做好电力信息通信各方面的数据收集工作,该篇文章通过对当前阶段电力信息运维技术体系的发展形式及一些实际运用展开了讨论,为电力信息通信数据的技术开展及一些参考信息提供了相关研究说明,希望可以给相关的研究人员及相关的研究工作带来一些参考的必要信
期刊
摘要:现阶段,随着社会的发展,我国的科学技术的发展也有了很大的进步。随着智能电网技术的发展和成熟,融合了同步数字体系和传统密集波分复用术优势的光传送网技术越来越广泛地应用于电力通信场景中。OTN具有大颗粒调度、大容量传输、适配多种业务等特点,不仅催生了诸多新的电力通信业务,也使得网络中对大容量高速率业务的处理性能大幅提升。电力通信OTN业务关系到电力系统的生产调度和管理控制,对业务可靠性、服务质量
期刊
摘 要: 海洋探测载体的浮力调节技术是载体沉浮调节的关键技术。本文系统介绍了油囊油泵浮力调节、海水泵吸排海水浮力调节、温差相变浮力调节等液压系统,从多方面性能分析中提出了应用范围的参考意见,并探讨了基于气动源的化学反应浮力调节、变温吸附浮力调节和可逆反应浮力调节等新的浮力调节技术发展方向。  关键词:海洋探测;浮力调节;液压系统;气动系统  0引言   我国是个海洋大国,但还不是海洋强国。我国的海
期刊
摘要:新时期,网络安全有了自身特殊的定义,它主要包括以下两个主体,一是网络自身的安全问题,二是网络在传输和储存信息时遇到的安全问题,其中,网络自身安全问题与相互连接的计算机设备、相关维护人员、网络设施、应用软件、服务程序以及各个网络组成密切相关,而网络信息安全着重强调信息传输以及储存的保密性、安全性、可靠性。总之,网络安全问题涉及了不同主题,不同范畴,是新时期人们最为关注的话题,本文就电力系统通信
期刊